数据采集与存储(下篇)
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长,数据的形式也更加丰富,主要有结构化数据、半结构化数据、非结构化数据。面对各种形式的数据应当采用什么样的数据采集策略,如何实现网络爬虫爬取网页信息,如何对抓取到的网页信息进行本地化存储,都是数据预处理过程中经常会遇到的问题。本章从数据的分类入手,分别介绍数据采集和存储的常用方法与技术。
1.爬取🦀数据以JSON格式进行存储🏪
1.1修改管道🧵文件
使用pipline.py文件作为管道文件,负责处理Spider中获取到的实体特征信息,并进行存储。这里需要导入JsonItemExporter模块进行JSON操作,然后在JsonExporterPipleline方法中执行具体的写操作,完整的代码如下:
1.2修改设置🔧文件
在setting.py设置文件中修改方法的执行优先级。数字从小到大,数字越小,优先级就越高,具体设置如下: