网络爬虫学习

最新推荐文章于 2024-08-07 08:19:34 发布

caohongye0528

最新推荐文章于 2024-08-07 08:19:34 发布

阅读量156

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43197752/article/details/104543519

版权

第一部分主要介绍

1.
Requests库

2.
通用代码框架

3.
HTTP 协议与requests库

每次操作均为独立无状态操作

协议与requests库是一一对应的

以上为两个方法对不同操作的对比。

以上为requests方法主要使用以及参数介绍，一下的方法都类似，其中get方法最常用。

总结：

1.
爬虫就是用get方法，其他六个方法都不咋用。

2.
框架的使用，目的是用来分析处理风险。

第二部分
使用的例子分析

Robots协议：

类人行为可不参考robots协议

单元总结：

主要就是明白robots。盗亦有道

实例1：京东商品页面爬取

实例2：亚马逊由于有来源审查，所以通过设定headers来模拟浏览器操作

实例3：百度360搜索关键词提交

关键：键值对的构造kv

实例4：网络图片的爬取与存储

注意代码的可靠与稳定性。

实例5：IP地址归属地的查询

网站上的人机交互方式，可以观察来解析出代码形式来传递请求。挖掘网站API。

单元总结：5个实例怎么用，requests库的使用。

资源 URL API的思考，以爬虫视角看待网络内容。

第二周：

树形结构：

Html的格式化以及编码，prettify增加换行符

单元小结：

Beautiful Soup

信息标记的三种形式：

XML JSON JAML

信息提取：

正则表达式的使用！！

单元总结：

三种标记方法信息提取方法（三种） BS库的find_all方法

BS库的实例检验

实例1：大学排名爬虫

关键自己动手操作一下

单元总结：

第三周：

正则表达式：

单元小结：

淘宝定向爬虫实例：

单元总结：

实例2：股票

单元总结：

第四周：

单元小结：

5+2 结构

requests的区别对比

命令行的使用

Scrapy实例：

实例：股票数据爬虫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。