【爬虫操作具体的步骤】

最新推荐文章于 2023-04-24 15:48:02 发布

l一抹天空蓝l

最新推荐文章于 2023-04-24 15:48:02 发布

阅读量3.5k

点赞数 1

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_59020330/article/details/125166104

版权

一、爬虫的步骤
1、需求分析（人做），简单说就是找爬虫的对象，你想具体爬啥。

2、找到你爬取的网站

3、下载request（网站的返回内容）

4、再利用正则表达式-re,xpath-lxml(通过返回的信息找到需要爬取的数据内容)

5、然后就是找到mysql(存储找到的数据内容)

二、这步就是关于requests
在这里插入图片描述
这是返回url的网页信息，图片视频等等…

request这是属于一个类，就好比重新写个__str__方法（）返回值，如果有网页的内容，返值就写200

三、网址协议（http）
这个概括不出来，可以自行去百度理解含义

四、去掉重复的内容
1.可以通过函数，比如hash来实现

2.图片类型

3.针对url,用hash对url进行分组，对应出来的数字来调用位图

l一抹天空蓝l

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【爬虫操作具体的步骤】

操作爬虫的步骤
复制链接

扫一扫

l一抹天空蓝l CSDN认证博客专家 CSDN认证企业博客

码龄3年

10: 原创

58万+: 周排名

156万+: 总排名

6850: 访问

: 等级

120: 积分

4: 粉丝

3: 获赞

3: 评论

8: 收藏

私信

关注

热门文章

最新评论

【django案例：学生信息管理三】
CSDN-Ada助手: 非常感谢CSDN博主写下这篇《django案例：学生信息管理三》，从中我们可以学到很多关于学生信息管理的实用技巧。我建议下一篇博客可以写一下“Django中的ORM查询优化技巧”，介绍如何在Django中更加高效地查询数据库，这对于其他Django开发者来说一定会非常有帮助。相信这样的技术文章能够吸引更多读者的关注，期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
【创建应用mysql】
这个名字我想了一天: 实用
【实现代码循环】
这个名字我想了一天: 博主真帅

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。