基于余弦距离的的文本相似度挖掘（C++）

最新推荐文章于 2024-05-10 09:37:41 发布

fy2462

最新推荐文章于 2024-05-10 09:37:41 发布

阅读量3.4k

点赞数 2

分类专栏： Data Mining 文章标签：数据挖掘 c++

本文链接：https://blog.csdn.net/fy2462/article/details/31770541

版权

本文介绍了利用C++实现基于余弦距离的文本相似度算法，主要包括预处理文本（去除噪声和停用词）、计算词频和输出最相似文章。程序使用map存储词频，但后续计划采用倒排索引以提升查找效率。

摘要由CSDN通过智能技术生成

本文实现了根据余弦距离的文本相似度的C++实现算法，如要要点如下：

1、对1998年1月的人民日报所有文章进行预处理（其中文件已经分化好分词），然后进行去噪声、去停用词等操作。

2、对处理好的数据进行余弦计算，并存储为相应的数据结构。

3、输出前N篇最相似的文章

下面介绍

Statistics.cpp，对预处理文件进行统计词频。

#pragma once
#include "TextSimilarity.h"
#include <windows.h>


void ContentStatistics(string& ArticleContent,Article& SigleArtile)
{
    //1.把词分割放入一个list中
    //2.用停用词删除list中的元素
    //3.遍历list，记住首词，统计出现次数，重复删掉
    //  词和次数放入SingleArtile的对象中的map<string,size_t> WordList中

    list<string> Wordlist;
    list<string>::iterator WordIter;

    size_t offset = 0;
    size_t begin = 0;
    size_t over = ArticleContent.size();
    size_t end = 0;
    string temp;

    while(offset != over)
    {
        if(ArticleContent[offset]>0 && ArticleContent[offset] < 127)
        {
            offset++;
        }
        else
        {
            begin = offset;
            while(!(ArticleContent[offset]>0 && ArticleContent[offset] < 127) 
                  &&am