Python 爬虫教程
文章平均质量分 70
a540366413
这个作者很懒,什么都没留下…
展开
-
02.Robots协议
Robots协议是规范网络爬虫爬去规范的一种协议,每个网站的robots协议都存储在根目录叫做robots.txt的文件,如果一个网站没有robots.txt则可以认为所有资源都可以爬取。User-agent: * #用来限制爬虫,*号代表所有爬虫都要遵守下面协议 Disallow: /scripts #不允许爬取包含/scripts路径 Disallow: /public Disallow:原创 2017-03-02 12:17:27 · 427 阅读 · 0 评论 -
01.Requests库学习
Requests库学习Requests介绍requests库是一个Python的HTTP库,可以进行丰富的Http操作。Requests安装pip install requests常用方法介绍requests.request(method, url, **args)构造一个请求,是requests其他库的基础方法,其他请求方法都是在request方法之上构造的。method 参数包含GET、 POS原创 2017-03-01 18:55:38 · 373 阅读 · 0 评论 -
03.BeautifulSoup使用
BeautifulSoup使用简介BeautifulSoup是一种解析html,xml等文档的解析修改等操作的工具。安装pip install beautifulsoup4初始化BeautifulSoup库 BeautifulSoup(markup,parser) markup是html或者xml标记的文档 parser是解析器,支持html.parser(python自带解原创 2017-03-07 16:25:51 · 426 阅读 · 0 评论