相似度 = 公共词汇数 / 总词数
eg:
第一篇:you are a handsome guy.
第二篇:i am a guy.
公共词汇: guy, a 总数为2
总词汇:you, are, a, handsome, guy, i, am 总数为7
相似度 = 2/7
#include<iostream>
using namespace std;
#include<string>
#include<set>
#include<cctype>
#include<fstream>
set<string> one;
set<string> two;
void OutFile()
{
ifstream ifs1("one.txt", ios::in);
ifstream ifs2("two.txt", ios::in);
string str1, str2, word1, word2;
if (!ifs1.is_open() || !ifs2.is_open())
{
cout << "open erorr!" << endl;
return;
};
while (getline(ifs1, str1) && getline(ifs2, str2))
{
for (int i = 0; i < str1.size(); i++)
{
if (isalpha(str1[i])) //isalpha函数作用是检验该字符是否为字母,范围为[-1,255]
{
word1 += tolower