python爬虫程序说明_【自学笔记】Python网络爬虫与信息提取(第一周 网络爬虫之规则)...

0.    预备知识4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

(1)    本课程是课程《Python网络爬虫与数据分析》的上半部分。

(2)    本课程需要先修课程《Python语言程序设计》(至少完成前四周学习)。

1.    Requests库入门4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

(1)    Requests库的安装563d9646afe0ca90038f551bf9085cadda3acec6.png第一步

1a1cb0ef18cdd17e0b5e63b0fddcb523c4be4b4c.png第二步

(2)    Requests库的get()方法

①    r = requests.get(url)4cbba8db1d5a9c251910c0e061cdcb6f666d0b1f.png

②    完整使用方法:r = requests.get(url,params=None,**kwargs)

url:拟获取页面的url连接。

params:url中的额外参数(字典或字节流格式)。

**kwargs:12个控制访问的参数。

③    Response对象:包含服务器返回的所有信息,也包含请求的Request信息。68939a226bb5f22e3879959b5c34b46c86caf3a7.png

(3)    爬取网页的通用代码框架

①    Requests库的异常542fc7cf2d7ffee5ffa18096479d3b03574771a6.png

②    r.raise_for_status() 方法49d78ea5ddffd5f72714fd1c3b3ccfb990875d97.png

(4)    HTTP协议(超文本传输协议)

①    HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

②    HTTP协议采用URL作为定位网络资源的标识。

③    URL格式:http://host[:port][path]

host:合法的Internet主机域名或IP地址。

port:端口号,缺省端口为80。

path:请求资源的路径。

④    HTTP URL实例

http://www.bit.edu.cn

http://220.181.111.188/duty

⑤    HTTP URL的理解:URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。

⑥    HTTP协议对资源的操作6bf29052cfa7a06b6b4f2a3b9594ded609bdf72e.png

cc0506daf132ab60d1c26b1ef3dcbc91e8b36bd9.png

(5)    Requests库主要方法解析

①    主要方法(7个)6d8761c55ba564b340b0db5ec99cde1d40737e00.png

②    主要方法的参数9229262453ddd83bbeec89b4bdfb2f6a26570513.png

③     参数:method(6个)/ **kwargs(13个)2d7c022aec41bbcf060e9285bc0164f78a56460b.png

2.    网络爬虫的“盗亦有道”4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

(1)    Robots协议(网络爬虫排除标准)

①    作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。

②    形式:在网站根目录下的robots.txt文件。

③    案例:百度(https://www.baidu.com/robots.txt)61fe09754d847c3fe93e3ad1c06d29be9c2d42d0.png

(2)    Robots协议的使用

①    网络爬虫:自动或人工识别robots.txt,再进行内容爬取。

②    约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。

3.    Requests库网络爬虫实战(5个实例)4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

(1)    京东商品页面的爬取0832b5a49bd75200f0b6a063c92c47c53e466aa3.png代码

63c12b7e0d1c3bc55167e3bc9e459f066eda290a.png运行效果

(2)    亚马逊商品页面的爬取90d0f9367d0b11dfbc7f1f763cd72b802b6ebcc5.png代码

(3)    360搜索关键词提交

【注】    360的关键词API:https://www.so.com/s?q=keyword06d2ad47f24a84e25618566937b227315bd846a8.png代码

3744a402abfff377205ebe31ff7f9cba07c7ae65.png运行效果

(4)    网络图片的爬取和存储

【注】    网络图片链接的格式:http://www.example.com/picture.jpg218ddcc66042da397a9fc462bd866a66e3a8df5e.png代码

83296a3d60c444c4252037a65ced0712dd365c38.png运行效果

7b3b508d3e41cf115b38f2963c081408013151d0.png保存的文件和路径

(5)    IP地址归属地的自动查询

【注】    API:http://ip.ws.126.net/ipquery?ip=paddress1dff0455421dd0b4ae91dabefd2de14e8446ed42.png代码

aa717aafa2d0c97d9de84ffadea90fbb770da3df.png运行效果

4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png《Python网络爬虫与信息提取》(第1周)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值