python实现倒排索引

python实现倒排索引

  • 倒排索引的过程简述:
    在这里插入图片描述

  • 题目形式如下:在这里插入图片描述

    • 前面的数字是文档号,每两行是一篇文档。
  • 题目要求如下:

    • 请编写程序(任意开发语言,推荐python3)为本目录下的1.txt文件构建倒排索引,保存在2_generated.txt(每行格式:词条\tDocFreq\tdocID docID,\t指换行符,docID间使用空格)
    • 文本处理要求:不要求做词条变化如friends -> friend等;直接用空格作为分割符;都转成小写A->a;符号(例如,)和符号混合字母(例如68-years-old),空字符串(因split函数产生)等非标准单词均视为单词参与统计,不做特殊处理(即空格分割得到的单个字符串不做进一步处理);把出现次数排名Top 100的字符串去掉
  • 实现代码

filename = './1.txt'

'''
    Func: read the file,and return the word_list
'''
def read_file(filename):
    result = []
    count = 0                           #put the same dot together
    with open(filename, 'r') as file_to_read:
        while True:
            lines = file_to_read.readline()  # read the line
            if(len(lines) == 
  • 5
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值