2018年05月_dbc_yu

11月 05月

原创基于10个类别假新闻1000篇文章数据训练中文word2vec模型

爬取语料库利用爬虫爬取百度网页每个类别假新闻10页，共1000篇文章。爬取的类别如下：数据预处理汇总把爬取到的10个txt文件都放在同一个文件夹下，利用程序将这10个txt文件合并在一起。把汇总的txt文件命名为result.txt。程序如下： file: FileMerage.py# os模块中包含很多操作文件和目录的函数import os# 获取目标文件夹的路径meragefiledir =...

2018-05-14 10:11:14 1251 2

原创基于搜狐新闻数据【完整版】训练中文word2vec模型

下载语料库进入搜狗实验室下载搜狐新闻数据，得到的是news_sohusite_xml.full.tar.gz这个压缩包，我们下载的是完整版的。数据预处理原始数据中包含完整的html文件，所以需要提取其中的中文内容，我们只提取其中<content>标签包含的内容。利用如下两条命令解压文件。(在虚拟机上运行)tar -zxvf news_sohusite_xml.full.tar.gzc...

2018-05-14 09:35:56 5593 9

原创 Python绘图问题：进一步丰富图表（设置文字说明，标题等）

plt.bar(range(len(blist)), clist, color='rgb',tick_label=blist)#第一个参数为x轴的坐标数字，第二个参数为y轴的数值，第三个参数为color,都四个参数为x轴的字符串for a,b in zip(range(len(blist)), clist): plt.text(a, b+0.05, b, ha='center', va=...

2018-05-11 16:52:05 9525

原创 Python绘图问题：解决柱状图y轴数值排序问题

事先我们已经得到了一个字典dict，并且对Matplotlib已经进行了引用。blist=[]#定义两个列表clist=[]list=sorted(dict.items(),key=lambda item:item[1])#得到的是一个list,list中的元素是tuplefor i in list: blist.append(i[0])#把元组中的第一个值添加到blist列表中 cl...

2018-05-11 11:25:08 21798

原创 Python绘图问题：解决Matplotlib中不能正确显示中文的问题

第一步:下载字体:msyh.ttf (微软雅黑) （本人在此下载的：http://www.downcc.com/font/248408.html）1）放在windows系统字体文件夹下: 控制面板\外观\字体，把安装好的字体复制到此目录下2）同时也复制放在matplotlib的字体文件夹下： C:\Users\Administra...

2018-05-11 10:50:34 1871 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于10个类别假新闻1000篇文章数据训练中文word2vec模型

原创 基于搜狐新闻数据【完整版】训练中文word2vec模型

原创 Python绘图问题：进一步丰富图表（设置文字说明，标题等）

原创 Python绘图问题：解决柱状图y轴数值排序问题

原创 Python绘图问题：解决Matplotlib中不能正确显示中文的问题

空空如也

空空如也

原创基于10个类别假新闻1000篇文章数据训练中文word2vec模型

原创基于搜狐新闻数据【完整版】训练中文word2vec模型