随着互联网的蓬勃发展,手机移动端和网络的逐渐普及,传播的权利下放到每个公民,“公民新闻”应运而生,每个公民成为记者,都能通过网络发出自己的声音。随着新闻传播门槛的降低,网上的信息愈加鱼龙混杂,如何有效在海量信息中获取自己感兴趣的和需要的成为另一个难题,如何在大量的新闻文本中提取出关键信息变得越来越重要。本案例将使用Python实现新闻关键词的提取。
机器学习竞赛优胜解决方案实战wx7dcc75bb5e655e9b.h5.xiaoe-tech.com首先介绍什么是关键词?
1.关键词
关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产生的。
目前,关键词自动标注方法分为两类:
(1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;
(2