python 爬虫总结

最新推荐文章于 2024-06-14 23:14:11 发布

__dazhi

最新推荐文章于 2024-06-14 23:14:11 发布

阅读量862

点赞数

分类专栏： Web开发文章标签： python spider 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014291956/article/details/79015183

版权

Web开发专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近写了一些爬虫，中间前前后后遇到不少坑，部分总结如下：

1. 请求数据头的设置:User-Agent，如不进行主动设置，服务器可能就拒绝服务。

2. Http字段Referer:该字段表明本次请求的上一次请求页面，有些链接过来的请求需要填充该字段。

3. Cookie:每次请求的服务器状态保存。

4. Host:服务器跳转过程中会修改该字段，我们需要该字段来拼接完整的URL。

5. GZIP压缩：服务器如返回的为Gzip(“content-encoding=gzip”)压缩页面，需要手动解压。

6. 301、302重定向：前者表示永久性转移，后者表示暂时性转移。

7. https传输：需要设置认证信息及安全信息。

JS绘制页面：该部分数据提取正在调研，python中有phantomjs，未完整尝试，正在调研；经网上找到资料，可采用修改Webkit内核来实现完整解析工作，可见腾讯文章:分布式爬虫之WebKit(https://www.qcloud.com/community/article/139)。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫总结

最近写了一些爬虫，中间前前后后遇到不少坑，部分总结如下：1. 请求数据头的设置:User-Agent，如不进行主动设置，服务器可能就拒绝服务。2. Http字段Referer:该字段表明本次请求的上一次请求页面，有些链接过来的请求需要填充该字段。3. Cookie:每次请求的服务器状态保存。4. Host:服务器跳转过程中会修改该字段，我们需
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。