Web抓取 (定向)à 格式化àDB
OSI协议
http 无会话的,明文传输的,
https 在登录时的作用,在传输层是加密的,全栈实行加密,有加密和解密的过程,
http1.0—每个会话建立一次请求
http1.1—
协议头,协议体
Get没有消息头
Post有消息头和消息体
304重定向
404资源不存在
500tomacat
Gzip二进制编码需要制定长度
抓网站做结构分析:所关心的内容、结构,web版和手机版的,可以找容易的解析
理论上:http,html
1. 整个网站总体结构分析
最需要的内容---寻找最简单的入口,遍历的模式啊
2.一个页面的请求页,eg:network上GET
3,内容页:网页内分析dom对象
Firebug 里面的 右键复制常用选项 xpath,html,innerHtml
/html/body/div[1]
Tittle: /html/body/div[8]/div[2]
Body后的Div节点1开始的
Desc: /html/…
抓定向的内容,可以参考浏览器的地址后面的参数,最需要的内容---最简单的入口
下一页有否的判断,循环
4Htmlparse把html解析成dom对象
通过id 来判断上次抓取到哪,下次从那里开始抓
微博的ID与其对应的图片关联
流量控制:1秒几条,防被封杀,用threadsleep来停下,实现流量控制
Cookied内容定义成静态常量,可以再次访问
alt+左箭头,返回上一次操作的地方
总结问题:登录问题(免登录选项),流量问题,保存问题(定义数据库结构),reffer问题(伪造refer)