自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 基于10个类别假新闻1000篇文章数据训练中文word2vec模型

爬取语料库利用爬虫爬取百度网页每个类别假新闻10页,共1000篇文章。爬取的类别如下: 数据预处理汇总把爬取到的10个txt文件都放在同一个文件夹下,利用程序将这10个txt文件合并在一起。把汇总的txt文件命名为result.txt。程序如下: file: FileMerage.py# os模块中包含很多操作文件和目录的函数import os# 获取目标文件夹的路径meragefiledir =...

2018-05-14 10:11:14 1251 2

原创 基于搜狐新闻数据【完整版】训练中文word2vec模型

下载语料库进入搜狗实验室下载搜狐新闻数据,得到的是news_sohusite_xml.full.tar.gz这个压缩包,我们下载的是完整版的。 数据预处理原始数据中包含完整的html文件,所以需要提取其中的中文内容,我们只提取其中<content>标签包含的内容。利用如下两条命令解压文件。(在虚拟机上运行)tar -zxvf news_sohusite_xml.full.tar.gzc...

2018-05-14 09:35:56 5593 9

原创 Python绘图问题:进一步丰富图表(设置文字说明,标题等)

plt.bar(range(len(blist)), clist, color='rgb',tick_label=blist)#第一个参数为x轴的  坐标数字,第二个参数为y轴的数值,第三个参数为color,都四个参数为x轴的字符串for a,b in zip(range(len(blist)), clist):    plt.text(a, b+0.05, b, ha='center', va=...

2018-05-11 16:52:05 9525

原创 Python绘图问题:解决柱状图y轴数值排序问题

事先我们已经得到了一个字典dict,并且对Matplotlib已经进行了引用。blist=[]#定义两个列表clist=[]list=sorted(dict.items(),key=lambda item:item[1])#得到的是一个list,list中的元素是tuplefor i in list:    blist.append(i[0])#把元组中的第一个值添加到blist列表中    cl...

2018-05-11 11:25:08 21798

原创 Python绘图问题:解决Matplotlib中不能正确显示中文的问题

第一步:下载字体:msyh.ttf (微软雅黑)                                   (本人在此下载的:http://www.downcc.com/font/248408.html)1)放在windows系统字体文件夹下: 控制面板\外观\字体,把安装好的字体复制到此目录下2)同时也复制放在matplotlib的字体文件夹下: C:\Users\Administra...

2018-05-11 10:50:34 1871 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除