基础套路:
一,获取urls
准备好爬取的urls
二,遍历urls
遍历urls,再通过requests模块进行获取html页面信息
三,提取数据
根据每一个页面信息,通过etree.HTML转化成element对象,获取对应标签的节点,再
根据节点获取具体的数据信息。
四,数据入库
根据第三步的操作,将数据保存。
1.保存本地,txt,csv等
2.将数据保存到mongodb或者mysql都可以。
=====================================================================
爬虫小技巧
1.python类型->json文件,中文乱码
这是因为序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False:
with open("data.json", "a", encoding="utf-8") as f:
json.dump(self.data_list, f, indent=2, ensure_ascii=False)