爬虫基础1

最新推荐文章于 2022-09-08 15:49:29 发布

吃饭睡觉摸鱼上网

最新推荐文章于 2022-09-08 15:49:29 发布

阅读量73

点赞数

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/huatoudd/article/details/117779133

版权

14 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

基础套路：

在这里插入图片描述

准备好爬取的urls

遍历urls，再通过requests模块进行获取html页面信息

根据每一个页面信息，通过etree.HTML转化成element对象，获取对应标签的节点，再
根据节点获取具体的数据信息。

根据第三步的操作，将数据保存。

1.保存本地，txt，csv等

2.将数据保存到mongodb或者mysql都可以。

=====================================================================

1.python类型->json文件,中文乱码

这是因为序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False：

with open("data.json", "a", encoding="utf-8") as f:
	json.dump(self.data_list, f, indent=2, ensure_ascii=False)

关注