在生活中爬虫的利用非常广泛最简单的例子就是浏览器
爬虫可以帮我们完成很多自动化工具例如我们想统计一个物品每个月的销售量
总而言之爬虫可以让繁琐的工作可以变得更简单
学习爬虫前我们可以去B站了解一下python基础
为什么要选择python这门编程语言???
因为
1.python易于学习
2.python有着强大的三方库
python的缺点也有很多但在这不细说了总而言之对新手非常非常友好
现在我们开始在python环境中写属于咱们的第一个爬虫也是最简单最基础的爬虫
首先我们在win10系统下的
win+R 按键调出运行行接口输入cmd调出命令行
紧接着打开命令行之后输入where python 找到python的所在位置
输入完where之后点击回车键 Shift
再点击回车键之后显示的最左边的是在哪一个磁盘中
比如我这是在D盘中要用命令"D:" 回车然后就切换到D盘了
然后在用 cd/CD''\ider_python\python解释器" 命令切换到python解释器的路径
到这一步对新手来说已经很不容易了OK现在我们开始下载模块requests
用命令pip install requests
这样我们就下载好了requests模块了接下来我们要最做的是爬虫的流程
其实流程很简单 但这只是在网站没有反爬的基础上
1.明确要爬取的目标网站
2.请求网站解析HTML
3.过滤HTML中的数据
4.提取数据
对没错一个爬虫的基本流程就是这么简单
首先我们打开PyCharm先导入模块requests
本博客用的为Goolg浏览器
用Goolg浏览器打开所需要爬取的网站鼠标右键点击检查然后就会弹出一个非常酷且使用的一个界面名叫开发者工具
然后弹出开发者工具界面之后点击上方的Network(网络)然后点击左上角刷新界面你就会看到弹出包
然后点击开发者工具中左上角搜索就会在开发者的工具的左边弹出来一个搜索然后你就可以搜索要爬取的数据了
然后我们选择一张要爬取的包中的图片数据然后点击Headers(请求头)如果显示是GET那就是需要GET请求还有很多请求我们在这里就主要了解GET请求这里的200表是可以请求
下一步在上面这个界面往下滑滑倒最后会显示User-Agent中的复制下来
然后我们再复制下URL链接
然后开始写我们第一个爬虫代码
以上就是爬虫最基本的用发和代码
以上教程仅供参考
如果不懂可在评论区留言做不到准时但不会不回复
本人也在持续学习当中希望在发博客的当中希望如果有错请大佬指点