搜狗实验室新闻素材整理

最新推荐文章于 2022-04-06 12:57:08 发布

icenows

最新推荐文章于 2022-04-06 12:57:08 发布

阅读量601

点赞数

分类专栏：自然语言处理NLP 文章标签：算法

自然语言处理NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

先把数据库的截图发一下，明天再写总结。

sohu_news_src_DB

所做的处理，最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设，同一条新闻在不同的平台上应该被归类到同一个频道下，那么，按照统计得到的数据可以应用到待处理的新闻关键词提取过程中，以提高关键词的提取效率。
实现过程总结如下：
第一阶段：将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共分成15个频道，——按照URL进行划分，最终结果如上图所示(因为数据库设置问题，有一个频道出错了，在处理中)。
第二阶段：选择某一个频道，使用IK_Analyser算法进行双向全切分，统计分词结果中包含在分词字典中的词组进行词频统计，同时将存储所有分词序列。这里有一个设置是，只有在分词词典中出现的词，才会进行统计。为了最大限度的消除由于词典不完善，以及分词歧义带来的影响，考虑将连续的单子，单子＋前后词组成待确认词，统计他们的出现频率，汇总后由人工进行确认。目前阶段先不考虑自动调整词典的实现方法，只是提供候选的词语组合，确认之后手动添加。
初步思路是这样的，有一些实现细节还没有考虑清楚。目前的另一个想法是收集新浪的新闻资源。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜狗实验室新闻素材整理

先把数据库的截图发一下，明天再写总结。sohu_news_src_DB所做的处理，最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设，同一条新闻在不同的平台上应该被归类到同一个频道下，那么，按照统计得到的数据可以应用到待处理的新闻关键词提取过程中，以提高关键词的提取效率。实现过程总结如下：第一阶段：将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。