自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 wiki数据处理

1.在https://dumps.wikimedia.org/zhwiki/20190501/下载数据,数据包的名字为:zhwiki-20190501-pages-articles.xml.bz2 1.6g,2.对数据进行预处理,下载好后不需要解压缩(1)数据为xml格式,编写脚本进行处理,这里给出一个脚本处理文件。https://pan.baidu.com/s/1Z2iX4mlohosa...

2019-05-17 14:38:28 1074

原创 tf-idf概念

什么是tf-idf:tf:trem frequency,词条频率,指的是某个词在文章中的出现次数/该文章所有字词的出现次数总和。idf指的是:inverse document frequency,逆文档频率,指的是log(语料库的文档总数/(包含该词的文档数+1))。概念:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语。...

2019-05-16 13:53:23 143

原创 python使用jieba实现tf-idf

具体代码:在这里插入代码片

2019-05-16 13:42:35 1869 1

原创 sublime配置Python环境

1.下载sublime2.下载python,python默认路径:“cmd”:[“C:/Users/Shirley/AppData/Local/Programs/Python/Python37/python.exe”,"-u","$file"],Shirley为我的账户名称.windows系统查找文件不是很方便,没有whereis XXX 命令。我忘记python的安装目录,在cmd输...

2019-05-16 10:41:20 1641

r语言的文本分析

大数据学习,r语言进行文本分析, k-means分类聚合。

2017-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除