![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
kiki.try
这个作者很懒,什么都没留下…
展开
-
word2vec构造词向量
接wiki数据处理章1.我曾经把从wiki下载下来的压缩包解压缩过,大概7个g左右,经过处理后,txt文件1个g左右。直接文本编辑器是打不开的,可以用python进行一行展示:...原创 2020-07-26 20:03:09 · 94 阅读 · 0 评论 -
sublime配置Python环境
1.下载sublime2.下载python,python默认路径:“cmd”:[“C:/Users/Shirley/AppData/Local/Programs/Python/Python37/python.exe”,"-u","$file"],Shirley为我的账户名称.windows系统查找文件不是很方便,没有whereis XXX 命令。我忘记python的安装目录,在cmd输...原创 2019-05-16 10:41:20 · 1657 阅读 · 0 评论 -
python使用jieba实现tf-idf
具体代码:在这里插入代码片原创 2019-05-16 13:42:35 · 1894 阅读 · 1 评论 -
tf-idf概念
什么是tf-idf:tf:trem frequency,词条频率,指的是某个词在文章中的出现次数/该文章所有字词的出现次数总和。idf指的是:inverse document frequency,逆文档频率,指的是log(语料库的文档总数/(包含该词的文档数+1))。概念:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语。...原创 2019-05-16 13:53:23 · 152 阅读 · 0 评论 -
wiki数据处理
1.在https://dumps.wikimedia.org/zhwiki/20190501/下载数据,数据包的名字为:zhwiki-20190501-pages-articles.xml.bz2 1.6g,2.对数据进行预处理,下载好后不需要解压缩(1)数据为xml格式,编写脚本进行处理,这里给出一个脚本处理文件。https://pan.baidu.com/s/1Z2iX4mlohosa...原创 2019-05-17 14:38:28 · 1100 阅读 · 0 评论