自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 使用python提取关键词

提取文章关键词,使用TF-IDF 算法,使用的例子是结合jieba分词,使用FreDist,因为TF-IDF算法需要的是一个语料库,当前语料库只有一篇文章,所以TF-IDF算法就退化成计算文章词频的算法了:需要记录的是FreqDist的成员函数plot(n),绘制出现次数最多的前n项tabulate(n),该方法接受一个数字n作为参数,会以表格的方式打印出现次数最多的前n项most_common(...

2018-06-12 22:07:10 2122

原创 使用python提取文章关键词

提取文章关键词,使用TF-IDF 算法,使用的例子是结合jieba分词,使用FreDist,因为TF-IDF算法需要的是一个语料库,当前语料库只有一篇文章,所以TF-IDF算法就退化成计算文章词频的算法了:需要记录的是FreqDist的成员函数 plot(n),绘制出现次数最多的前n项 tabulate(n),该方法接受一个数字n作为参数,会以表格的方式打印出现次数最多的前n项 most_comm...

2018-06-12 22:03:11 2217

原创 学习NLP第一课

欲先攻其事必先利其器1、 安装nltk,使用 pip install nltk2、 在命令行下执行  import nltknltk.download('punkt')一段原始文本要可以处理必须经过几个阶段,一般而言主要有1、文本清理,清理掉一些不必要的字符,比如使用BeautifulSoup的get_text,一处非ascii字符等等2、语句分离,一大段原生文本,处理成一系列的语句,用计算机术...

2018-04-26 11:04:29 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除