爬虫学习（一）

最新推荐文章于 2020-06-14 11:45:57 发布

SeasonRun

最新推荐文章于 2020-06-14 11:45:57 发布

阅读量352

点赞数

分类专栏： Python 文章标签： spider 爬虫数据获取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haiziccc/article/details/90514475

版权

Python 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

为了从互联网上批量获取数据，研究了下spider，在此记录一笔学习经历。

今天先了解下robots协议，也叫爬虫协议，全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

比如打开 http://www.taobao.com/robots.txt 我们可以看到以下信息，表明淘宝不允许百度抓取/product信息，而允许google获取/product信息。

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:

我们可以自定义爬虫所使用的agent，比如我们可以按照以下方式定义agent，访问时使用其中一个。

ua_list = [
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36",#Chrome
    "Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0",#firwfox
    "Mozilla/5.0 (compatible, MSIE 11, Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko",#IE
    "Opera/9.99 (Windows NT 5.1; U; zh-CN) Presto/9.9.9",#Opera
]
ua = random.choice(ua_list) #pick one

遨游浏览器提供了自定义user-agent的功能设置，大家可以自行选择。

SeasonRun CSDN认证博客专家 CSDN认证企业博客

码龄12年

220: 原创

3万+: 周排名

28万+: 总排名

62万+: 访问

: 等级

6953: 积分

116: 粉丝

179: 获赞

122: 评论

1012: 收藏

私信

关注

热门文章

分类专栏

运维 49篇
云开发 57篇
AI 36篇
思维训练 1篇
代码 6篇
go 20篇
教育 2篇
基础 2篇
知识图谱 18篇
微信 2篇
架构 1篇
Image Recognition 11篇
BigData 39篇
Python 21篇

最新评论

运维小知识---持续更新
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
Python去除文本所有标点符号
梅川鸡尾酒: 中文符号少了个反引号
python通过经纬度获取地址信息
luckynnz: 请问输出结果能转成中文吗
三种创建Neo4j知识图谱方法详解
qq_38987083: 请问在broswer中运行代码后，左侧查询结果没有graph，只有table等其他三个左侧边选择，是什么问题呢
医疗知识图谱智能问答系统学习总结（一）-Neo4j/Python
qq_50512672: 乙肝的链接有吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SeasonRun 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。