网络爬虫
网络爬虫就像一只蜘蛛一样在互联网上沿着URL的丝线爬行。
网络爬虫的应用场景
搜索引擎、抓取商业数据、舆情分析、完成自动化任务
爬虫
网络爬虫是一种程序,它的目的是:
1.将互联网上的网页下载到本地。
2.提取出相关数据
网络爬虫可以:
- 自动化的浏览网络中的信息
- 根据我们制定的规则下载和提取信息
爬虫分类:
通用网络爬虫(全网爬虫)、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫
Python
1.环境搭建安装
2.基础语法
标识符、保留字、注释、行与缩进等
3.数据类型
Number(数字)String(字符串)bool(布尔类型)List(列表)Tuple(元组)Set(集合)Dictionary(字典)
4.条件语句
网页结构分析
网页分析
请求头(header)、 请求方式(get)、开发者模式等
1.网页图片采集
安装requests库
导包、获取图片地址、加载图片地址、写入图片名称及格式、写入文件、执行结果。
2.参数传递
导包、定制请求头、获取网址、拼接搜索功能、定义传递多参数、设置请求方式和请求头以及传递参数、打印请求地址。
- 多参数传递
导包、定制请求头、获取网址、定义传递多参数、设置请求方式和请求头以及传递参数、打印请求地址、打印状态码。
Linux基本命令
命令1:ls (查看指定目录中有哪些内容)
ls / 相当于查看根目录中的内容,相当于查看我的电脑
ls -l(小写l,或者使用ll)详细查看目录下所有内容
ls /usr/lib(ls+目录名称)
命令2:pwd(显示用户在哪个目录下(绝对路径))
命令3:cd+目录名称(将用户切换到指定目录)
cd+绝对路径:
cd+相对路径:
cd..返回上一级目录
命令4:touch+文件名称(创建空文件)
命令5:echo(主要是写文件)
echo+字符串(打印内容到控制台)
echo+字符串+>存在的文件(写文件)
注意:如果多次使用echo写文件,文件内容将会覆盖,以最后一次为准
命令6:cat+文件(打开指定文件)
命令7: mkdir(创建目录)
使用mkdir -p 加多级目录(可以直接生成多级目录)
命令8:rm(删除文件/目录)
rm-r +要删除的目录(删除目录)
命令9:mv+需要移动的文件+移动到的目录(移动文件)
mv第二个功能:给文件/目录重命名
命令10:cp+需要复制的文件+复制的新路径(复制文件)
cp-r +复制的目录+复制的路径(复制目录)
命令11:man ls(查看各种命令的含义指令)
命令12:less+文件名称(分页查看)
命令13:vim+文件名称(创建/打开文件(适合长文本的文件进行书写插入))
命令14:grep+字符串内容+文件名称(查找文件中是否包含该字符串)
命令15:netstat -anp | grep +端口号 (根据端口号查询进程)