更多爬虫实例请见 https://blog.csdn.net/weixin_39777626/article/details/81564819
#W3C标准
这部分推荐多看,浏览器(浏览器的话,我偏爱2345浏览器和FireFox,尤其在Xpath部分,FireFox的firebug,firexpath凸显绝对优势)打开任意网页,按F12;或者右击>>查看网页源代码;或者选中页面某一元素>>右击>>审查元素。
如果时间充裕的话,推荐动手试试制作网页,不需要太高端,只需最基础的那种,这里推荐使用菜鸟教程
HTML 强烈推荐动手制作网页
CSS
JavaScript
XPath 这部分我不怎么看,使用写爬虫使用xpath提取数据时,直接(2345浏览器)鼠标选中内容>>右击>>审查元素>>Copy>>Copy Xpath,这样一个xpath表达式就完成了,不放心的话,可以使用FireFox打开网页,再将刚刚的表达式粘到firebug里,回车,检验看看表达式是否正确
JSON 这部分也不怎么需要看,使用时候打开网页>>按F12>>点击NetWork>>按F5>>点击任一链接>>点击Preview,动态加载内容都在这里,可以再根据这里的内容写表达式,如下图中我想定位“特别关注”
请求页面之后,根据preview内容这么写表达式
import json
datas=json.loads(request)
data=datas['data']['groups'][0][name]
#HTTP标准
这部分看看书就够了,另外状态码部分我自己整理了一份较详细的,放在这里,遇到问题时候可以拿起来翻翻
状态码:链接:https://pan.baidu.com/s/1vX6nXuz4LOI-nDT4AK68dA 密码:5xa1
更多爬虫实例请见 https://blog.csdn.net/weixin_39777626/article/details/81564819