文本相似度检测小项目

  1. 项目介绍
    1. 文本查重的方式有很多,但都离不开分词这一项,所以在这里我选择jieba库来代替我分词;
    2. 相似度求法也很多,比如说余弦距离、欧几里得距离、曼哈顿距离等等,这里我选择余弦距离,比较容易理解。
  2. 项目规划
    1. 分词
    2. 统计词频
    3. 构建余弦向量
    4. 求余弦距离
  3. 项目过程
    1. 引入jieba库,这个库可以在网上直接找到,下载之后配置到项目中即可;
    2. 创建一个TestTextSimlarity类,构造函数这里根据jieba来写,以免文本链接不上;
      
      
      class TestTextSimilarity
      {
      public:
      	
      	typedef std::unordered_map<std::string, int> wordFreq;
      	typedef std::unordered_set<std::string> wordSet;
      	TestTextSimilarity(std::string dict);
      	void getStopWordTable(const char* stopWordFile);
      	wordFreq getWordFreq(const char* filename);
      
      	std::string UTF8TOGBK(std::string str);
      	std::string GBKTOUTF8(std::string str);
      	std::vector<std::pair<std::string, int>> sortByValueReverse(wordFreq& wf);
      	void selectTopWords(std::vector<std::pair<std::string, int>>& wfvec, wordSet&a
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值