基于余弦距离的的文本相似度挖掘(C++)

本文介绍了利用C++实现基于余弦距离的文本相似度算法,主要包括预处理文本(去除噪声和停用词)、计算词频和输出最相似文章。程序使用map存储词频,但后续计划采用倒排索引以提升查找效率。
摘要由CSDN通过智能技术生成

本文实现了根据余弦距离的文本相似度的C++实现算法,如要要点如下:

1、对1998年1月的人民日报所有文章进行预处理(其中文件已经分化好分词),然后进行去噪声、去停用词等操作。

2、对处理好的数据进行余弦计算,并存储为相应的数据结构。

3、输出前N篇最相似的文章

下面介绍

Statistics.cpp,对预处理文件进行统计词频。

#pragma once
#include "TextSimilarity.h"
#include <windows.h>


void ContentStatistics(string& ArticleContent,Article& SigleArtile)
{
    //1.把词分割放入一个list中
    //2.用停用词删除list中的元素
    //3.遍历list,记住首词,统计出现次数,重复删掉
    //  词和次数放入SingleArtile的对象中的map<string,size_t> WordList中

    list<string> Wordlist;
    list<string>::iterator WordIter;

    size_t offset = 0;
    size_t begin = 0;
    size_t over = ArticleContent.size();
    size_t end = 0;
    string temp;

    while(offset != over)
    {
        if(ArticleContent[offset]>0 && ArticleContent[offset] < 127)
        {
            offset++;
        }
        else
        {
            begin = offset;
            while(!(ArticleContent[offset]>0 && ArticleContent[offset] < 127) 
                  &&am
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值