学习爬虫的第一天

最新推荐文章于 2024-10-16 17:48:16 发布

Sharps.

最新推荐文章于 2024-10-16 17:48:16 发布

阅读量941

点赞数 6

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84811526/article/details/141333533

版权

在生活中爬虫的利用非常广泛最简单的例子就是浏览器

爬虫可以帮我们完成很多自动化工具例如我们想统计一个物品每个月的销售量

总而言之爬虫可以让繁琐的工作可以变得更简单

学习爬虫前我们可以去B站了解一下python基础

为什么要选择python这门编程语言？？？

因为

1.python易于学习

2.python有着强大的三方库

python的缺点也有很多但在这不细说了总而言之对新手非常非常友好

现在我们开始在python环境中写属于咱们的第一个爬虫也是最简单最基础的爬虫

首先我们在win10系统下的

win+R 按键调出运行行接口输入cmd调出命令行

紧接着打开命令行之后输入where python 找到python的所在位置

输入完where之后点击回车键 Shift

再点击回车键之后显示的最左边的是在哪一个磁盘中

比如我这是在D盘中要用命令"D：" 回车然后就切换到D盘了

然后在用 cd/CD''\ider_python\python解释器" 命令切换到python解释器的路径

到这一步对新手来说已经很不容易了OK现在我们开始下载模块requests

用命令pip install requests

这样我们就下载好了requests模块了接下来我们要最做的是爬虫的流程

其实流程很简单但这只是在网站没有反爬的基础上

1.明确要爬取的目标网站

2.请求网站解析HTML

3.过滤HTML中的数据

4.提取数据

对没错一个爬虫的基本流程就是这么简单

首先我们打开PyCharm先导入模块requests

本博客用的为Goolg浏览器

用Goolg浏览器打开所需要爬取的网站鼠标右键点击检查然后就会弹出一个非常酷且使用的一个界面名叫开发者工具

然后弹出开发者工具界面之后点击上方的Network(网络）然后点击左上角刷新界面你就会看到弹出包

然后点击开发者工具中左上角搜索就会在开发者的工具的左边弹出来一个搜索然后你就可以搜索要爬取的数据了

然后我们选择一张要爬取的包中的图片数据然后点击Headers（请求头）如果显示是GET那就是需要GET请求还有很多请求我们在这里就主要了解GET请求这里的200表是可以请求

下一步在上面这个界面往下滑滑倒最后会显示User-Agent中的复制下来

然后我们再复制下URL链接

然后开始写我们第一个爬虫代码

以上就是爬虫最基本的用发和代码

以上教程仅供参考

如果不懂可在评论区留言做不到准时但不会不回复

本人也在持续学习当中希望在发博客的当中希望如果有错请大佬指点

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。