第一步:获取网页内容
第二步:解析网页内容
第三步:储存或分析数据
网页有些地方是有反爬限制的,比如有些内容需要登陆后才可查看,或者有验证码等限制的机制
可以在网页后面加robots.txt查询可以被爬取的网页路径范围
比如 google.com/robots.txt
各个步骤对应的:
第一步 - HTTP请求 - python的request库
第二步 - HTML网页结构 - python的beautiful soup库
第三步 - 只教两个通用的
————————————————
以上为视频教学的笔记,原视频链接: