第一部分 主要介绍
1.
Requests库
2.
通用代码框架
3.
HTTP 协议与requests库
每次操作均为独立无状态操作
协议与requests库是一一对应的
以上为两个方法对不同操作的对比。
以上为requests方法主要使用以及参数介绍,一下的方法都类似,其中get方法最常用。
总结:
1.
爬虫就是用get方法,其他六个方法都不咋用。
2.
框架的使用,目的是用来分析处理风险。
第二部分
使用的例子分析
Robots协议:
类人行为可不参考robots协议
单元总结:
主要就是明白robots。盗亦有道
实例1:京东商品页面爬取
实例2:亚马逊 由于有来源审查,所以通过设定headers来模拟浏览器操作
实例3:百度360搜索关键词提交
关键:键值对的构造kv
实例4:网络图片的爬取与存储
注意代码的可靠与稳定性。
实例5:IP地址归属地的查询
网站上的人机交互方式,可以观察来解析出代码形式来传递请求。挖掘网站API。
单元总结:5个实例怎么用,requests库的使用。
资源 URL API的思考,以爬虫视角看待网络内容。
第二周:
树形结构:
Html的格式化以及编码,prettify增加换行符
单元小结:
Beautiful Soup
信息标记的三种形式:
XML JSON JAML
信息提取:
正则表达式的使用!!
单元总结:
三种标记方法 信息提取方法(三种) BS库的find_all方法
BS库的实例检验
实例1:大学排名爬虫
关键自己动手操作一下
单元总结:
第三周:
正则表达式:
单元小结:
淘宝定向爬虫实例:
单元总结:
实例2:股票
单元总结:
第四周:
单元小结:
5+2 结构
requests的区别对比
命令行的使用
Scrapy实例:
实例:股票数据爬虫