scrapy将爬取到的数据存入elasticsearch

weixin_34082177

于 2019-05-21 12:34:00 发布

阅读量1k

点赞数

文章标签：大数据 python 爬虫

原文链接：http://www.cnblogs.com/zdj8023/p/10899126.html

版权

pip安装 elasticsearch-dsl的包, 是elasticsearch提供给python 的接口

if __name__  == "__main__":

这个用来调试,还是很强大的,可以直接为某个py文件进行单元测试??应该是这么个意思

自己生成一个 models的文件夹用来存放类定义,和Django差不多,这样结构比较好

然后为每一个爬虫都定义它的类, 通过定义类,和scrapy中的item是对应的,然后调用 init方法,就可以实现创建索引了

同样是在这里面设置需要连接的elastic的服务器, 而且这里可以设置多个服务器,更详细的设置应该也是可以的,但是还没有讲到

这样如果需要修改某个字段的类型或者重新设置类,直接修改完重新init一下就可以了

又出现了错误，而且调试了半天：结果是这个包的版本的问题，应该按照github的说明安装特定的版本就行了

真的我尼玛，因为我们的elasticsearch是5.1.1的，所以这个也必须安装5.x.x的版本

将数据写入到elastic中

和django的model基本一毛一样

定义一个pipeline ,然后在process_item 函数中实例化定义的elasticsearch中的type类,然后分别给字段赋值,最后直接调用save方法

把数据写入的逻辑定义在item的函数中,然后在pipeline中直接调用它的自己保存函数,这样可以增加代码重用

#这里python的import方式也有很多区别,同级的文件相互导入一般也得加上上级的目录???

pipeline的顺序越小,处理的顺序越早

又出现了次错误, item里面定义的只能用字典的keyword形式来获取,不能用类的属性,否则会报错

成功存入elasticsearch, 下一步进行搜索

转载于:https://www.cnblogs.com/zdj8023/p/10899126.html

weixin_34082177

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy将爬取到的数据存入elasticsearch

pip安装 elasticsearch-dsl的包, 是elasticsearch提供给python 的接口if __name__ == "__main__":这个用来调试,还是很强大的,可以直接为某个py文件进行单元测试??应该是这么个意思自己生成一个 models的文件夹用来存放类定义,和Django差不多,这样结构比较好然后为每一个爬虫都定义它的类, 通过定义类,和...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。