- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 wiki数据处理
1.在https://dumps.wikimedia.org/zhwiki/20190501/下载数据,数据包的名字为:zhwiki-20190501-pages-articles.xml.bz2 1.6g,2.对数据进行预处理,下载好后不需要解压缩(1)数据为xml格式,编写脚本进行处理,这里给出一个脚本处理文件。https://pan.baidu.com/s/1Z2iX4mlohosa...
2019-05-17 14:38:28 1074
原创 tf-idf概念
什么是tf-idf:tf:trem frequency,词条频率,指的是某个词在文章中的出现次数/该文章所有字词的出现次数总和。idf指的是:inverse document frequency,逆文档频率,指的是log(语料库的文档总数/(包含该词的文档数+1))。概念:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语。...
2019-05-16 13:53:23 143
原创 sublime配置Python环境
1.下载sublime2.下载python,python默认路径:“cmd”:[“C:/Users/Shirley/AppData/Local/Programs/Python/Python37/python.exe”,"-u","$file"],Shirley为我的账户名称.windows系统查找文件不是很方便,没有whereis XXX 命令。我忘记python的安装目录,在cmd输...
2019-05-16 10:41:20 1641
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人