纯零基础学习爬虫,开局来套“嵩天教授的Python网络爬虫与信息提取课程”,小白就要有小白的自觉,不贪多,要务实。
引入
1)The website is the API …
2)学习路径:Requests获得网页信息,robots.txt网络爬虫排除标准,Beautiful.Soup解析HTML页面,Projects实战项目A/B,Re正则表达式详解,提取页面关键信息,Scrapy*网络爬虫原理,专业爬虫框架。
3)8个内容单元+4个实例单元
4)Python语言开发工具选择,我用pycharm,anaconda&jupyter botebook
单元1:Requests库入门
1.1 Requests库安装
http://www.python-requests.org
conda install requests
-
-
-
验证是否安装成功
-
-
1.1.2 Requests库的7个主要方法
requests.request() 构造一个请求,支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页的头信息方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML网页提交删除请求,对应于HTTP的DELETE
1.1.3 requests.request()方法
1.1.4 requests.get()方法
返回reponse对象,有5个属性
r.statuts_code:
r.text:
r.encoding:
r.apparent_encoding:
r.content:HTTP响应内容的二进制形式
1.2 爬取网页的通用代码框架
网络连接有风险,异常处理很重要。