利用FudanNLP进行新闻关键词提取

               

在做新闻推荐系统的时候,首先要做的应该是抓取新闻,从中提取关键字,其次是运用机器学习里面的聚类分类方法根据浏览记录对用户进行分组,在组内进行推荐。在这里我只是简单说下抓取新闻之后如何从中提取出关键字,其他内容就不在这里介绍了。

关于提取关键字的理论基础,强烈推荐大家看这篇文章:TF-IDF与余弦相似性的应用(一):自动提取关键词,作者是大名鼎鼎的阮一峰。了解了提取关键字是怎么一回事后,接下来就是实践的过程了,不用担心,其实别人早就给我们写好了提取关键字的工具,自己只需要调用其接口就行,省时省力,何乐而不为呢?

目前网络上这方面的工具有不少,就使用来看主要有下面两个开源的工具,一个是北理工张华平(晓阳速来拜见导师)老师的NLPIR,专门做分词的,号称全球第一;还有一个是复旦大学fudanNLP。这两个工具各有特点:NLPIR是用C++写的,C++,C#很容易调用,JAVA调用起来还要用JNI,感觉比较麻烦;fudanNLP本身就是java实现的,JAVA调用起来很方便。所以看你的平台,这里我是JAVA,首选fudanNLP,如果非要在JAVA下使用NLPIR,建议参看这篇文章:http://blog.csdn.net/zhyh1986/article/details/9167593,下面就不介绍NLPIR了。

1、下载fudanNLP

地址看这里:https://code.google.com/p/fudannlp/downloads/lis

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值