自然语言处理
残月飞雪
在读博士,方向为图像处理
展开
-
wiki中文文本语料下载并处理 ubuntu + python2.7
首先下载wiki中文语料(大约1.7G)https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2下载的文件名为“zhwiki-latest-pages-articles.xml.bz2”下载之后需要对其进行提取txt文件,并且进行繁体字转化,以及去除一些帮助页面和重定向的页面,处理程序为:#...原创 2018-10-19 15:47:33 · 3127 阅读 · 0 评论 -
python wiki中文语料分词
上篇将wiki中文语料已经下载下来(wiki中文文本语料下载并处理 ubuntu + python2.7),并且转为了txt格式,本篇对txt文件进行分词,分词后才能使用word2vector训练词向量分词python程序为(使用jieba分词)# -*- coding: utf-8 -*-#!/usr/bin/env pythonimport sysreload(sys)sys.se...原创 2018-10-20 09:34:48 · 1763 阅读 · 0 评论 -
python word2vector训练wiki中文文本语料
前两篇文章对wiki中文语料进行下载(wiki中文文本语料下载并处理 ubuntu + python2.7)和分词(python wiki中文语料分词),本篇使用word2vector训练词向量,训练程序为# -*- coding: utf-8 -*-#!/usr/bin/env pythonimport sysreload(sys)sys.setdefaultencoding('utf...原创 2018-10-20 09:49:48 · 2072 阅读 · 0 评论 -
python 提取sogou中文语料库
sogou中文语料库下载地址是:https://download.csdn.net/download/kinas2u/1277550下载下来的文件包含了很多子文件夹,每个子文件夹下又包含了很多txt语料文件,我想把他们都整合到一个txt中(./SogouC_mini_20061102/Sample),并且输出的是已经分好词的txt文件下面是处理程序# -*- coding: utf-8 ...原创 2018-10-20 10:03:19 · 4494 阅读 · 0 评论