建立词库以及文档向量化

最新推荐文章于 2024-08-27 14:07:42 发布

nulixuexidexiaojie

最新推荐文章于 2024-08-27 14:07:42 发布

阅读量699

点赞数

分类专栏：词库文档向量化文章标签：其他

本文链接：https://blog.csdn.net/qq_42455916/article/details/108538236

版权

词库同时被 2 个专栏收录

1 篇文章

订阅专栏

文档向量化

1 篇文章

订阅专栏

如何为自己的“项目”建立词库

我自己的应用场景

我是因为毕设的原因接触到词库的应用。之所以需要词库是要对文献进行数据化，即将文献的关键词变成一个n维向量（这里的称为向量，其实并没有方向一说，就是n个数据）。因为我个人的“项目”
需要对文献进行聚类，所以需要将文献用数据表示。
本博客均为自己的经验之谈，应该会有很多错误吧=-=
如果有帮助最好了，否则~ 轻喷

简要过程

要得到文献的对应数据，需要先有一个对应的词库，然后再将文献中的关键词提取出来，根据词库将文献变为一个n维向量。再用PCA方法进行降维操作，从而得到每个文献的向量化数据。最后再对这些数据进行聚类等操作。
PCA实现代码搜一搜是有的。

建立词库以及向量化

我个人的方法是将所有文献中的关键词集合放在一起，通过词频统计，将出现最多的关键词从高到低排序，取前100个作为词库中的词（根据自己的需求可以自己决定需要多少个词）。
将每一篇文献的关键词+生成的词库得到一个1×n的数组，即n维向量。
这里在生成1×n的数组时候，可以添加一些权重，例如：“数字化”一词出现在某一篇文献的关键词中时，给对应位置赋值a*1，这里的a自己决定。
省事的话可以直接在对应位置直接赋1。
例如：词库：“数字化”，“教育”，…“软件”（100个词）
某文献关键词：“数字化”，“软件”
那么得到的向量，即数组：（1，0,…,1) 这里为1×100的数组。