《用Python写网络爬虫》——导读

最新推荐文章于 2024-09-20 09:39:51 发布

weixin_33717298

最新推荐文章于 2024-09-20 09:39:51 发布

阅读量81

点赞数

文章标签：爬虫 python

原文链接：https://yq.aliyun.com/articles/91934

版权

5143b1df1f97866cf7220fda282ddaf68bee1431

前言

互联网包含了迄今为止最有用的数据集，并且大部分可以免费公开访问。但是，这些数据难以复用。它们被嵌入在网站的结构和样式当中，需要抽取出来才能使用。从网页中抽取数据的过程又被称为网络爬虫。随着越来越多的信息被发布到网络上，网络爬虫也变得越来越有用。

目录

[ 第1章网络爬虫简介
1.1 网络爬虫何时有用](https://yq.aliyun.com/articles/91817/)
1.2 网络爬虫是否合法
 1.3 背景调研
1.3.1 检查robots.txt
1.3.2 检查网站地图
1.3.3 估算网站大小
1.3.4 识别网站所用技术
1.3.5 寻找网站所有者
1.4 编写第一个网络爬虫
1.4.1 下载网页
1.4.2 网站地图爬虫
1.4.3 ID遍历爬虫
1.4.4 链接爬虫
1.5 本章小结
[第2章数据抓取
2.1 分析网页](https://yq.aliyun.com/articles/91886/)
2.2 三种网页抓取方法
2.2.1 正则表达式
2.2.2 Beautiful Soup
2.2.3 Lxml
2.2.4 性能对比
2.2.5 结论
2.2.6 为链接爬虫添加抓取回调
2.3 本章小结
第3章下载缓存
第4章并发下载
第5章动态内容
第6章表单交互
第7章验证码处理
第8章 Scrapy
第9章总结

weixin_33717298

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。