python爬虫必知的基础知识

访问资源的协议类型URL开头的http,https,ftp,sftp,smb,
http(hyper text transfer protocol):从网络传输超文本数据到本地浏览器的传输协议,它能高效而准确的传送超文本文档。
https(hyper text transfer protocol over Secure Socket Layer),是以安全为目标的http通道,即安全版,在http下加入SSL层,简称https,安全基础为ssl,传输的内容都是经过ssl加密的。主要作用看p79页。

General:Request Headers:method ,url,headers,body,
Method: Get:wd表示要search的关键字,数据在URL当中可以看到,最多提交1024字节。
Post:大多在表单提交的时发起,包含在请求体当中,没限制
content-type和post提交数据方式的关系。

user-agen t 爬虫伪装浏览器
Response Header:status code p85
Header:expires:指定响应的过期时间
set-cookie:设置cookie

爬虫需要知道的基础网页结构:
Body 
html定义了网页的内容和结构,css描述了网页的布局,js定义了网页的行为,
#id.class      CSS选择器

节点树及节点间的关系
标签定义的内容为节点,构成HTML DOM树
DOM:document object model文档对象模型,定义了访问html和XML(可扩展标记语言)文档的标准。
HTML DOM标准
文档节点,元素节点,文本节点,属性节点,注释节点。
树中所有节点均可以通过js访问,元素可被修改,创建或删除。具有层级关系,

数据爬取出来可以存储的格式:
数据存储txt,json,csv
对象与数组
对象,文本字符,dump和loads函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值