- 博客(5)
- 收藏
- 关注
原创 基于10个类别假新闻1000篇文章数据训练中文word2vec模型
爬取语料库利用爬虫爬取百度网页每个类别假新闻10页,共1000篇文章。爬取的类别如下: 数据预处理汇总把爬取到的10个txt文件都放在同一个文件夹下,利用程序将这10个txt文件合并在一起。把汇总的txt文件命名为result.txt。程序如下: file: FileMerage.py# os模块中包含很多操作文件和目录的函数import os# 获取目标文件夹的路径meragefiledir =...
2018-05-14 10:11:14 1251 2
原创 基于搜狐新闻数据【完整版】训练中文word2vec模型
下载语料库进入搜狗实验室下载搜狐新闻数据,得到的是news_sohusite_xml.full.tar.gz这个压缩包,我们下载的是完整版的。 数据预处理原始数据中包含完整的html文件,所以需要提取其中的中文内容,我们只提取其中<content>标签包含的内容。利用如下两条命令解压文件。(在虚拟机上运行)tar -zxvf news_sohusite_xml.full.tar.gzc...
2018-05-14 09:35:56 5593 9
原创 Python绘图问题:进一步丰富图表(设置文字说明,标题等)
plt.bar(range(len(blist)), clist, color='rgb',tick_label=blist)#第一个参数为x轴的 坐标数字,第二个参数为y轴的数值,第三个参数为color,都四个参数为x轴的字符串for a,b in zip(range(len(blist)), clist): plt.text(a, b+0.05, b, ha='center', va=...
2018-05-11 16:52:05 9525
原创 Python绘图问题:解决柱状图y轴数值排序问题
事先我们已经得到了一个字典dict,并且对Matplotlib已经进行了引用。blist=[]#定义两个列表clist=[]list=sorted(dict.items(),key=lambda item:item[1])#得到的是一个list,list中的元素是tuplefor i in list: blist.append(i[0])#把元组中的第一个值添加到blist列表中 cl...
2018-05-11 11:25:08 21798
原创 Python绘图问题:解决Matplotlib中不能正确显示中文的问题
第一步:下载字体:msyh.ttf (微软雅黑) (本人在此下载的:http://www.downcc.com/font/248408.html)1)放在windows系统字体文件夹下: 控制面板\外观\字体,把安装好的字体复制到此目录下2)同时也复制放在matplotlib的字体文件夹下: C:\Users\Administra...
2018-05-11 10:50:34 1871 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人