python批量导入网页信息_python批量导入数据进Elasticsearch的实例

最新推荐文章于 2022-03-28 10:07:32 发布

nbht

最新推荐文章于 2022-03-28 10:07:32 发布

阅读量391

点赞数

文章标签： python批量导入网页信息

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31313629/article/details/112893753

版权

ES在之前的博客已有介绍，提供很多接口，本文介绍如何使用python批量导入。ES官网上有较多说明文档，仔细研究并结合搜索引擎应该不难使用。

先给代码

#coding=utf-8

from datetime import datetime

from elasticsearch import Elasticsearch

from elasticsearch import helpers

es = Elasticsearch()

actions = []

f=open('index.txt')

i=1

for line in f:

line = line.strip().split(' ')

action={

"_index":"image",

"_type":"imagetable",

"_id":i,

"_source":{

u"图片名":line[0].decode('utf8'),

u"来源":line[1].decode('utf8'),

u"权威性":line[2].decode('utf8'),

u"大小":line[3].decode('utf8'),

u"质量":line[4].decode('utf8'),

u"类别":line[5].decode('utf8'),

u"型号":line[6].decode('utf8'),

u"国别":line[7].decode('utf8'),

u"采集人":line[8].decode('utf8'),

u"所属部门":line[9].decode('utf8'),

u"关键词":line[10].decode('utf8'),

u"访问权限":line[11].decode('utf8')

}

}

i+=1

actions.append(action)

if(len(actions)==500):

helpers.bulk(es, actions)

del actions[0:len(actions)]

if (len(actions) > 0):

helpers.bulk(es, actions)

每句话的含义还是很明显的，这里需要说几点，首先是index.txt是以utf8编码的，所以需要decode('utf8')转换成unicode对象，并且“图片名”前需要加u，否则ES会报错

导入的速度还是很快的，2000多条记录每秒。

以上这篇python批量导入数据进Elasticsearch的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

时间： 2018-05-29

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。