python倒排索引_如何更快地建立倒排索引？

最新推荐文章于 2022-12-24 10:56:43 发布

weixin_39706561

最新推荐文章于 2022-12-24 10:56:43 发布

阅读量617

点赞数

文章标签： python倒排索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39706561/article/details/111458619

版权

博主正在尝试使用Python构建一个简单的搜索引擎，通过爬虫抓取的数据存储在MySQL，接着进行分词并构建倒排索引。目前的实现方式是在内存中使用字典暂存，再将索引存入Redis。遇到的问题是当前方法耗时较长，期待优化算法。代码中利用jieba分词并过滤停用词，将单词与对应网页ID的词频存储在Redis的哈希表中。博主希望能得到关于提高构建倒排索引速度的建议。

摘要由CSDN通过智能技术生成

问题描述

我想python实现一个简单的搜索引擎，需要建立倒排索引。但我的方法太耗时了(如图)，这个算法应该怎么改比较好？

我的思路是，爬虫获取的网页数据保存在MySQL中，然后从数据库获取到数据后进行分词，暂存在字典中(倒排索引)，然后保存至redis数据库，索引中保存的是每个单词对应的网页ID和词频。

相关代码

mydb = mysql.connector.connect(

host="localhost",

user="root",

passwd="121314",

database="spider"

)

mycursor = mydb.cursor()

mycursor.execute("SELECT id, data FROM page")

result = mycursor.fetchall()

for row in result:

lexicon(row[0], row[1])

word_dict = {}

r = redis.Redis(host="127.0.0.1", port=6379, db=0)

def lexicon(id, data):

print("Lexiconing and building index.")

word_list = jieba.cut_for_search(str(data))

# 标点符号和停用词

with open('stop_words.txt') as f:

stop_words = [line.strip() for line in f.readlines()]

for item in word_list:

if item not in stop_words:

if item not in word_dict:

word_dict[item] = {}

word_dict[item][id] = 1

r.hset(item, id, 1) # 设置词频至redis中

else:

if idd not in word_dict[item]:

word_dict[item][id] = 1

r.hset(item, id, 1) # 设置词频至redis中

else:

word_dict[item][id] += 1

r.hincrby(item, id, 1) # redis词频+1

网上这方面的资料太少了，最近比较感兴趣，希望有人能给点建议。

weixin_39706561

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。