Web抓取

Web抓取 (定向)à 格式化àDB

OSI协议  

http 无会话的,明文传输的,

https 在登录时的作用,在传输层是加密的,全栈实行加密,有加密和解密的过程,

 

http1.0—每个会话建立一次请求

http1.1—

协议头,协议体

Get没有消息头

Post有消息头和消息体

304重定向

404资源不存在

500tomacat

Gzip二进制编码需要制定长度

 

抓网站做结构分析:所关心的内容、结构,web版和手机版的,可以找容易的解析

 

理论上:http,html

 

1.    整个网站总体结构分析

最需要的内容---寻找最简单的入口,遍历的模式啊

2.一个页面的请求页,eg:network上GET

 

3,内容页:网页内分析dom对象

Firebug 里面的 右键复制常用选项  xpath,html,innerHtml

/html/body/div[1]

Tittle: /html/body/div[8]/div[2]

Body后的Div节点1开始的

 

Desc: /html/…

抓定向的内容,可以参考浏览器的地址后面的参数,最需要的内容---最简单的入口

 

下一页有否的判断,循环

4Htmlparse把html解析成dom对象

通过id 来判断上次抓取到哪,下次从那里开始抓

微博的ID与其对应的图片关联

流量控制:1秒几条,防被封杀,用threadsleep来停下,实现流量控制

Cookied内容定义成静态常量,可以再次访问

alt+左箭头,返回上一次操作的地方

 

总结问题:登录问题(免登录选项),流量问题,保存问题(定义数据库结构),reffer问题(伪造refer)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值