自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据艺术家

数据挖掘领域懵逼者

原创 【环境报错】pip无论怎么更新仍然是老版本

问题情况无论怎么更新pip,pip依然是老版本C:\Users\Changxing>python -m pip install --upgrade pipRequirement already up-to-date: pip in d:\python38_64\lib\site-packages (20.0.2)C:\Users\Changxing>pip --vers...

2020-04-25 18:50:40 118

原创 学习NLP的第12天——文章关键词提取:TextRank

TextRank是PageRank算法在文本处理中的应用,通过将PageRank中的节点从网站替换为单词。每个单词的“外链”均来自于单词前后固定大小的窗口内的所有单词。给 你 形容 美好 今后 你 常常 眼睛 会 红例如,当窗口大小而2时,上面的句子中的“美好”一词,它的窗口内就包含“你”、“形容”、“今后”、“你”这个四个词;以此类推。在计算TextRank的过程中,窗口内的每...

2020-04-25 18:50:18 104

原创 学习NLP的第11天——文章关键词提取:TF-IDF

关键词提取是词语颗粒度的信息抽取的一种重要的需求,即提取文章中重要的词语。关键词提取的常用方法包括词频统计、TF-IDF和TextRank等。其中,词频和TextRank属于单文档算法,即只需一篇文章即可提取出其中的关键词;而TF-IDF则属于多文档宣发,需要其他文档的辅助TF-IDF原理因为如果一个词在越多的文档里出现,则越说明这个词不能体现出文档的特色。相较于词频统计的方法...

2020-04-25 18:46:18 157

提示
确定要删除当前文章?
取消 删除