数据预处理与实践(第三期)

数据采集与存储(下篇)

随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长,数据的形式也更加丰富,主要有结构化数据、半结构化数据、非结构化数据。面对各种形式的数据应当采用什么样的数据采集策略,如何实现网络爬虫爬取网页信息,如何对抓取到的网页信息进行本地化存储,都是数据预处理过程中经常会遇到的问题。本章从数据的分类入手,分别介绍数据采集和存储的常用方法与技术。

1.爬取🦀数据以JSON格式进行存储🏪

1.1修改管道🧵文件

使用pipline.py文件作为管道文件,负责处理Spider中获取到的实体特征信息,并进行存储。这里需要导入JsonItemExporter模块进行JSON操作,然后在JsonExporterPipleline方法中执行具体的写操作,完整的代码如下:

 

1.2修改设置🔧文件

在setting.py设置文件中修改方法的执行优先级。数字从小到大,数字越小,优先级就越高,具体设置如下:

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值