先把数据库的截图发一下,明天再写总结。
![](http://211.144.121.121/blogs/xu/wp-content/uploads/2009/03/sohu_news1-150x150.png)
sohu_news_src_DB
所做的处理,最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设,同一条新闻在不同的平台上应该被归类到同一个频道下,那么,按照统计得到的数据可以应用到待处理的新闻关键词提取过程中,以提高关键词的提取效率。
实现过程总结如下:
第一阶段:将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共分成15个频道,——按照URL进行划分,最终结果如上图所示(因为数据库设置问题,有一个频道出错了,在处理中)。
第二阶段:选择某一个频道, 使用IK_Analyser算法进行双向全切分,统计分词结果中包含在分词字典中的词组进行词频统计,同时将存储所有分词序列。这里有一个设置是,只有在分词词典中出现的词,才会进行统计。为了最大限度的消除由于词典不完善,以及分词歧义带来的影响,考虑将连续的单子,单子+前后词组成待确认词,统计他们的出现频率,汇总后由人工进行确认。目前阶段先不考虑自动调整词典的实现方法,只是提供候选的词语组合,确认之后手动添加。
初步思路是这样的,有一些实现细节还没有考虑清楚。目前的另一个想法是收集新浪的新闻资源。