聚集爬虫:爬取页面中指定的页面内容
编码流程:
- 指定URL
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储
数据解析分类:
- 正则
- bs4
- xpath(***)
数据解析原理概述:
- 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
-
进行指定标签的定位
-
标签或者标签对应的属性中存储的数据值进行提取(解析)
-
聚集爬虫:爬取页面中指定的页面内容
编码流程:
数据解析分类:
数据解析原理概述:
进行指定标签的定位
标签或者标签对应的属性中存储的数据值进行提取(解析)