有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

最新推荐文章于 2024-08-28 14:26:16 发布

a13393665983

最新推荐文章于 2024-08-28 14:26:16 发布

阅读量65

点赞数

文章标签：爬虫

原文链接：http://www.cnblogs.com/lexus/archive/2012/03/29/2422603.html

版权

有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

有关网页抓取问题的一些经验总结

2011-05-05 18:07:38

标签：爬虫网页抓取

    在写爬虫的时候经常会遇到有些页面下载下来会有问题，如果你把请求模拟成和浏览器一样，肯定是可以把页面正确获取的，但是其中往往很多参数都没有什么用，真正影响的就几个关键参数。这里特别把自己的经验做一下总结。

    重点需要关注的参数有：

1. url: 这主要就是URL编码会导致问题，在URL中包含中文的时候可能会出现

2. user-agent: 大网站通常会对不同的浏览器做优化，所以会有区别

3. cookie: 有些网站会用到cookie信息，比如有些网站会把session信息记录在cookie中

4. refer: 有些网站为了防止跨站攻击，会对refer的页面进行检查

5. accept-charset和accept-encoding: 个别网站会对接收的编码会有特殊处理

6. sessionID: 这个有时会设在参数中，有些网站会用到这个值，当然还有其他参数可能会有用到。

    上面都是经验之谈，希望能对大家有所帮助。

posted on 2012-03-29 07:20 lexus 阅读( ...) 评论( ...) 编辑收藏

转载于:https://www.cnblogs.com/lexus/archive/2012/03/29/2422603.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客有关网页抓取问题的一些经验总结2011-05-05 18:07:38标签：爬虫 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。