文本相似度检测小项目

最新推荐文章于 2024-04-16 10:44:57 发布

ningwuwu

最新推荐文章于 2024-04-16 10:44:57 发布

阅读量662

点赞数

分类专栏： project

本文链接：https://blog.csdn.net/R_T_P_A_D/article/details/88370737

版权

项目介绍
1. 文本查重的方式有很多，但都离不开分词这一项，所以在这里我选择jieba库来代替我分词；
2. 相似度求法也很多，比如说余弦距离、欧几里得距离、曼哈顿距离等等，这里我选择余弦距离，比较容易理解。
项目规划
1. 分词
2. 统计词频
3. 构建余弦向量
4. 求余弦距离

项目过程

引入jieba库，这个库可以在网上直接找到，下载之后配置到项目中即可；

创建一个TestTextSimlarity类，构造函数这里根据jieba来写，以免文本链接不上；



class TestTextSimilarity
{
public:
	
	typedef std::unordered_map<std::string, int> wordFreq;
	typedef std::unordered_set<std::string> wordSet;
	TestTextSimilarity(std::string dict);
	void getStopWordTable(const char* stopWordFile);
	wordFreq getWordFreq(const char* filename);

	std::string UTF8TOGBK(std::string str);
	std::string GBKTOUTF8(std::string str);
	std::vector<std::pair<std::string, int>> sortByValueReverse(wordFreq& wf);
	void selectTopWords(std::vector<std::pair<std::string, int>>& wfvec, wordSet&a

最低0.47元/天解锁文章

ningwuwu

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
文本相似度检测小项目

项目介绍文本查重的方式有很多，但都离不开分词这一项，所以在这里我选择jieba库来代替我分词；相似度求法也很多，比如说余弦距离、欧几里得距离、曼哈顿距离等等，这里我选择余弦距离，比较容易理解。项目规划分词统计词频构建余弦向量求余弦距离项目过程引入jieba库，这个库可以在网上直接找到，下载之后配置到项目中即可；创建一个TestTextSim...
复制链接

扫一扫