网络爬虫学习

第一部分  主要介绍

1.    
Requests库

2.    
通用代码框架

3.    
HTTP 协议与requests库

每次操作均为独立无状态操作

协议与requests库是一一对应的

以上为两个方法对不同操作的对比。

以上为requests方法主要使用以及参数介绍,一下的方法都类似,其中get方法最常用。

总结:

1.    
爬虫就是用get方法,其他六个方法都不咋用。

2.    
框架的使用,目的是用来分析处理风险。

第二部分
使用的例子分析

Robots协议:

类人行为可不参考robots协议

单元总结:

主要就是明白robots。盗亦有道

实例1:京东商品页面爬取

实例2:亚马逊 由于有来源审查,所以通过设定headers来模拟浏览器操作

实例3:百度360搜索关键词提交

关键:键值对的构造kv

实例4:网络图片的爬取与存储

注意代码的可靠与稳定性。

实例5:IP地址归属地的查询

网站上的人机交互方式,可以观察来解析出代码形式来传递请求。挖掘网站API。

单元总结:5个实例怎么用,requests库的使用。

资源 URL API的思考,以爬虫视角看待网络内容。

第二周:

树形结构:

Html的格式化以及编码,prettify增加换行符

单元小结:

Beautiful Soup

信息标记的三种形式:

XML JSON JAML

信息提取:

正则表达式的使用!!

单元总结:

三种标记方法 信息提取方法(三种) BS库的find_all方法

BS库的实例检验

实例1:大学排名爬虫

关键自己动手操作一下

单元总结:

第三周:

正则表达式:

单元小结:

淘宝定向爬虫实例:

单元总结:

实例2:股票

单元总结:

第四周:

单元小结:

5+2 结构

requests的区别对比

命令行的使用

Scrapy实例:

实例:股票数据爬虫

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值