搜狗实验室新闻素材整理

先把数据库的截图发一下,明天再写总结。


sohu_news_src_DB

所做的处理,最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设,同一条新闻在不同的平台上应该被归类到同一个频道下,那么,按照统计得到的数据可以应用到待处理的新闻关键词提取过程中,以提高关键词的提取效率。
实现过程总结如下:
第一阶段:将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共分成15个频道,——按照URL进行划分,最终结果如上图所示(因为数据库设置问题,有一个频道出错了,在处理中)。
第二阶段:选择某一个频道, 使用IK_Analyser算法进行双向全切分,统计分词结果中包含在分词字典中的词组进行词频统计,同时将存储所有分词序列。这里有一个设置是,只有在分词词典中出现的词,才会进行统计。为了最大限度的消除由于词典不完善,以及分词歧义带来的影响,考虑将连续的单子,单子+前后词组成待确认词,统计他们的出现频率,汇总后由人工进行确认。目前阶段先不考虑自动调整词典的实现方法,只是提供候选的词语组合,确认之后手动添加。
初步思路是这样的,有一些实现细节还没有考虑清楚。目前的另一个想法是收集新浪的新闻资源。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值