tf idf算法 java_求TF-IDF算法的C++或java源码。

展开全部

之前写过的,请加分。#include

#include 

#include

#include

#include 

#include 

#include 

#include 

using namespace std;

map IDFTable;

struct Words{

string wd;

float freq;

float weight;

};

bool cmp(Words &w1,Words&w2)

{

return w1.weight>w2.weight;

}

map WordTable;

vector WordList;

char Comment[]=",.!\"?;:()";

int totalText=0;

bool IsAllNumber(string cs)

{

for (int i=0;i

{

32313133353236313431303231363533e58685e5aeb931333335316532if(cs[i]'9')

return false;

}

return true;

}

bool Isblank(string cs)

{

for (int i=0;i

{

if(cs[i]!=' '&&cs[i]!='\t')

return false;

}

return true;

}

string &ToLower(string &cs)

{

for (int i=0;i

{

if(cs[i]>='A'&&cs[i]<='Z')

cs[i]+=('a'-'A');

}

return cs;

}

void readFile(string fname,set &wds)

{

ifstream fin(fname.c_str());

string word;

wds.clear();

while (!fin.eof())

{

fin>>word;

for (int i=0;Comment[i]!=0;i++)

{

int pos;

while((pos=word.find(Comment[i]))!=-1)

{

word.replace(pos,1,"");

}

}

//the world;

if(!IsAllNumber(word)&&!Isblank(word))

{

wds.insert(ToLower(word));

}

/*totalwords++;

*/

}

fin.close();

}

void GenerateIDF()

{

totalText=0;

string files[7]={"curious.txt",

"erotic.txt",

"fall.txt",

"hands.txt",

"water.txt",

"wifi.txt",

"young.txt"};

int x;

setwds;

for (int i=0;i<7;i++)

{

readFile(files[i],wds);

for (set::iterator it=wds.begin();it!=wds.end();++it)

{

map::iterator iter;

string word=*it;

if((iter=IDFTable.find(word))!=IDFTable.end())

{

iter->second+=1;

}

else

{

IDFTable[word]=1;

}

}

totalText++;

}

//

int cnt=0;

for (map::iterator iter=IDFTable.begin();iter!=IDFTable.end();++iter)

{

iter->second=log((float)totalText/(iter->second+1.0));

/*cout<first<second<

cnt++;

if(cnt%100==0)

{

cin>>x;

}*/

}

}

int GenerateTF(){

ifstream fin("Test.txt");

string word;

int textwords=0;

while (!fin.eof())

{

fin>>word;

for (int i=0;Comment[i]!=0;i++)

{

int pos;

while((pos=word.find(Comment[i]))!=-1)

{

word.replace(pos,1,"");

}

}

if(!IsAllNumber(word)&&!Isblank(word))

{

//wds.insert(ToLower(word));

textwords++;

ToLower(word);

map::iterator it;

if((it=WordTable.find(word))!=WordTable.end())

{

it->second++;

}

else

{

WordTable[word]=1;

}

}

}

fin.close();

//计算频率

for (map::iterator it=WordTable.begin();it!=WordTable.end();++it)

{

Words wd;

wd.wd=it->first;

wd.freq=(float)(it->second)/textwords;

float idf=0;

map::iterator iter;

if((iter=IDFTable.find(wd.wd))!=IDFTable.end())

{

idf=iter->second;

}

else

idf=log((float)totalText);

wd.weight=wd.freq*idf;

WordList.push_back(wd);

}

return textwords;

}

void GenerateSort()

{

sort(WordList.begin(),WordList.end(),cmp);

}

int main(){

GenerateIDF();

int txtwd=GenerateTF();

GenerateSort();

int topnum=10;

cout<

cout<

for (int i=0;i

{

cout<

}

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值