网络爬虫笔记--01

纯零基础学习爬虫,开局来套“嵩天教授的Python网络爬虫与信息提取课程”,小白就要有小白的自觉,不贪多,要务实。

引入

1)The website is the API …

2)学习路径:Requests获得网页信息,robots.txt网络爬虫排除标准,Beautiful.Soup解析HTML页面,Projects实战项目A/B,Re正则表达式详解,提取页面关键信息,Scrapy*网络爬虫原理,专业爬虫框架。

3)8个内容单元+4个实例单元

4)Python语言开发工具选择,我用pycharm,anaconda&jupyter botebook

单元1:Requests库入门

1.1 Requests库安装

http://www.python-requests.org

conda install requests

      1. 验证是否安装成功

 

uploading.4e448015.gif转存失败重新上传取消uploading.4e448015.gif转存失败重新上传取消

 

1.1.2 Requests库的7个主要方法

requests.request() 构造一个请求,支撑以下各方法的基础方法

requests.get() 获取HTML网页的主要方法,对应于HTTP的GET

requests.head() 获取HTML网页的头信息方法,对应于HTTP的HEAD

requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST

requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT

requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH

requests.delete() 向HTML网页提交删除请求,对应于HTTP的DELETE

1.1.3 requests.request()方法

1.1.4 requests.get()方法

返回reponse对象,有5个属性

r.statuts_code:

r.text:

r.encoding:

r.apparent_encoding:

r.content:HTTP响应内容的二进制形式

1.2 爬取网页的通用代码框架

网络连接有风险,异常处理很重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值