在做新闻推荐系统的时候,首先要做的应该是抓取新闻,从中提取关键字,其次是运用机器学习里面的聚类分类方法根据浏览记录对用户进行分组,在组内进行推荐。在这里我只是简单说下抓取新闻之后如何从中提取出关键字,其他内容就不在这里介绍了。
关于提取关键字的理论基础,强烈推荐大家看这篇文章:TF-IDF与余弦相似性的应用(一):自动提取关键词,作者是大名鼎鼎的阮一峰。了解了提取关键字是怎么一回事后,接下来就是实践的过程了,不用担心,其实别人早就给我们写好了提取关键字的工具,自己只需要调用其接口就行,省时省力,何乐而不为呢?
目前网络上这方面的工具有不少,就使用来看主要有下面两个开源的工具,一个是北理工张华平(晓阳速来拜见导师)老师的NLPIR,专门做分词的,号称全球第一;还有一个是复旦大学fudanNLP。这两个工具各有特点:NLPIR是用C++写的,C++,C#很容易调用,JAVA调用起来还要用JNI,感觉比较麻烦;fudanNLP本身就是java实现的,JAVA调用起来很方便。所以看你的平台,这里我是JAVA,首选fudanNLP,如果非要在JAVA下使用NLPIR,建议参看这篇文章:http://blog.csdn.net/zhyh1986/article/details/9167593,下面就不介绍NLPIR了。