java 文本分析 关键词提取,利用ANSJ进行文本关键词提取

以前已经提到过使用FudanNLP进行新闻关键词提取,无奈组长不满意因而换成了ictclas,在个人ubuntu13.04上面ictclas跑得很好,惋惜到别人的机器上就报错,没办法,只好再一次换工具,通过晓阳童鞋推荐,此次换成了ANSJ,听说这个工具就是早先ictclas的JAVA版本。java

这个工具的Github地址是这里:https://github.com/ansjsun/ansj_seg 须要看源码的本身前往。下面说说如何使用这个工具提取关键词。git

1-下载JAR包github

显然下载JAR包是最省事的方法,固然你也能够把Github上面的工程加进来,无奈JAR包找了很久未找到,最后只好向做者索取,目前已经上传到CSDN了,欢迎下载:http://download.csdn.net/detail/jj12345jj198999/6020541ubuntu

2-自定义keyword类网络

虽然ANSJ中已经实现了关键词提取,不过输出时并无给出每个关键词的权重,因而只好手动修改keyword类,好在Github上面的源码中已经定义了权重成员,咱们只须要增长一个Get函数便可。app

publicclassKeywordimplementsComparable {

privateString name;

privatedoublescore;

privatedoubleidf;

privateintfreq;

publicKeyword(String name,intdocFreq,intweight) {

this.name = name;

this.idf = Math.log(10000+10000.0/ (docFreq +1));

this.score = idf * weight;

freq++;

}

publicvoidupdateWeight(intweight) {

this.score += weight * idf;

freq++;

}

publicintcompareTo(Keyword o) {

if(this.score 

return1;

} else{

return-1;

}

}

publicbooleanequals(Objec

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值