索引构建和压缩的过程

我是Jessica

已于 2023-04-15 16:02:14 修改

阅读量144

点赞数 1

文章标签： java python

于 2023-04-15 15:50:55 首次发布

本文链接：https://blog.csdn.net/m0_62494887/article/details/130170844

版权

个人感觉网上现有的实验报告写的不好，自己写一个。

(1) 建立倒排索引

· 使用jieba中文分词（https://pypi.org/project/jieba/）或其他中文分词工具进行分词

在Python3.8或者3.7下载会好一点，但是我在python 3.11下的。

无所谓，我会出丑；

下载jieba两种方式。

①直接在Pycharm里import jieba,他会提示Install Jieba，直接install就行了；

②将Python对应路径导入环境变量之后，直接在终端里

pip install jieba

下好之后就可以了。

只能说面向对象的思想深入人心，二话不说先建立一个Class对HW3.txt的文档进行储存；这些任务之间都有关系，可以说是层层递进，所以在做第一个任务的时候也要考虑后面的几个任务。

阅读jieba的使用文档https://github.com/fxsjy/jieba/blob/master/README.md（哥们一定要阅读啊，以后说不定还能用，个人感觉这个跟今年美赛C题相关性很大），里面有这么一段话，

jieba.cut 方法接受四个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型；use_paddle 参数用来控制是否使用paddle模式下的分词模式，paddle模式采用延迟加载方式，通过enable_paddle接口安装paddlepaddle-tiny，并且import相关代码；
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

代码示例：

# encoding=utf-8
import jieba

jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持，早期版本不支持
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

输出：

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

· 统计593个文档中的token的总数和term的总数；

这个我不是很能理解在这种情况下，Token和term有什么B区别，因为书上的定义term是经过词条归一化后的结果，但是——

· 构建倒排索引，并输出以下七组查询的文档ID：“迁移”，“迁移学习”，“推荐”，“深度学习”，“隐私”，“跨领域”，“跨域”。

(2)VBCode的编码和解码

因为VBcode包含解码和编码两种操作，

(3)γCode的编码和解码

我是Jessica

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
5
评论
索引构建和压缩的过程

针对附件“HW3.txt”中的593个文档（每行表示一个document，文档ID为1至593）：(i)使用jieba中文分词（https://pypi.org/project/jieba/）或其他中文分词工具进行分词；(ii)统计593个文档中的token的总数和term的总数；(iii)构建倒排索引，并输出以下七组查询的文档ID：“迁移”，“迁移学习”，“推荐”，“深度学习”，“隐私”，“跨领域”，“跨域”。
复制链接

扫一扫