python如何给一组数据打标签_用 python 给数据打标签,500 万条数据怎样提高效率?...

所以说你真的就把pandas 当读取数据的工具了吗..

增加了一列is_tobacco 作为你说的标记

filter_query 返回含有这些词的列表 效率有一定提升

其次你可以分割后用 multiprocessing 执行 这个加速起来不止一点半点

import pandas as pd

word = pd.read_table('test.txt', encoding = 'utf-8', names = ['query'])

def signquery(word):

tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰']

word['is_tobacco'] = word['query'].apply(lambda name:name in tobacco)

return word

def filter_query(word):

tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰']

return word[word['query'].apply(lambda name:name in tobacco)]['query'].to_dict().values()

result = filter_query(word)

print result

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值