自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云杉的博客

我的愿望是 世界和平

  • 博客(9)
  • 资源 (3)
  • 收藏
  • 关注

原创 Xshell登录不显示登录名框

今天用Xshell登录linux服务器,但是另我意外的是,在我输完ip后,直接蹦出来登录密码框,而登录名显示的是我另一的账号的登录名。 打开会开框可以显示: 怎么办呢,登录名不对,肯定登录不上哇,于是摸索出下面的这条道: 1、点击文件 步2、 3、查找出现的用户名更改后保存即可 4、更改后发现,用户名已经更改过来了 然后登录就行了,搞定!

2017-02-27 17:03:04 13682 3

原创 centos6.x建立用户组和用户名小结

目的: 1、建立用户组sparkgroup 2、有新用户了,可以向用户组里sparkgroup添加用户 步骤: 1、[root@s2 home]# tail /etc/passwd 查看uid. 2、如,此处用还没用的1005 groupadd -g 1010 sparkgroup #建立用户组sparkgroup,其uid为10103、想用户组sparkgroup

2017-02-27 16:18:49 4670

原创 python 编码与解码

一般情况下 文件的编码类型可分为两大类,可以type(line)查看: 1、若line为Unicode类型 Unicode码要想转化为其它编码(如utf-8码),可以直接 line.encode(‘utf-8’)2、若line为str类型 则line又可分为好几类编码,如“ascii”、“utf-8”、“gbk”、“windows-1252”等码。划重点了,假如此时line编码类型是A,若想

2017-02-24 14:40:20 617

原创 Python列表操作总结

列表操作包含以下函数: 1、cmp(list1, list2):比较两个列表的元素 2、len(list):列表元素个数 3、max(list):返回列表元素最大值 4、min(list):返回列表元素最小值 5、list(seq):将元组转换为列表 列表操作包含以下方法: 1、list.append(obj):在列表末尾添加新的对象 2、list.count(obj):统

2017-02-22 00:27:13 626

原创 处理数据(文本)时遇到过的坑

训练词向量时,本来就是准备好格式一定训练文本,然后调用gensim开始训练。但是训练过程中出现了这样的幺蛾子,编码坑UnicodeDecodeError: 'utf8' codec can't decode bytes in position 4229-4231: invalid continuation byte可能原因,文本中有不能解码的字符,无法处理。于是参看一下文本,感觉还不错,效果未知

2017-02-21 00:02:54 677

原创 python处理类xml文件遇到的坑

首先先确定xml文件有两个特点容易忽视, 1、xml文件有且只有一个根节点 2、xml文件的标签的属性都有引号“” 由于对xml文件不熟,并且对python处理xml文件不熟,故这两个坑用了将近一天的时间来填,谨记说到填坑,要特备感谢一驻马店的老乡“驻马店bd”qq已备注。不是他的帮助,估计还要整好长时间。特此感谢,虽然他看不到。那么我处理的文件到底什么样子呢,请看图: 就这这么个德行

2017-02-18 00:54:27 9164

原创 用word2vec训练文本摘要的词向量模型

在记录这篇博文前,有个声明: 1、训练文本时是分过词的文本,词与词之间为空格。不同类别的文档要最终写成一个文本,该文本是训练集所有文档的集合。 2、训练文本摘要的词向量模型我现在不知道怎么训练? 是把训练集中的摘要和正文对齐一块训练,还是单独训练正文的 部分。ok,下面是正文部分。 a、词向量是其他任务的前置任务。词向量是无监督学习出来的,后置任务直接用。所以我应该把中文和摘要做

2017-02-15 23:48:22 4893 1

原创 写代码训练词向量时踩过的坑

在用python的第三方包gensim训练词向量时,踩到了如下的坑,记录下来: # -*- coding: utf-8 -*- from gensim.models import word2vec #sentences=word2vec.Text8Corpus(u"C:\\Users\\PengjunZhu\\Desktop\\test1.txt") sentences = [['处理'

2017-02-14 00:11:50 3313 1

原创 利用Word2Vec训练词向量过程

先明确一点,选用不同的词向量作为模型的初始值,效果的差异非常大!那么怎么产生一个好的词向量呢?参看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F1、英文的词向量可以训练,也可以用Google训练好的那个模型。 2、但是中文就不行了,没有一个公布一个权威的词向量。所以,当我们自己做试验时,就需要动手训练这个语义空间的词向量(

2017-02-11 02:05:40 10551 2

搭建Hadoop伪分布

搭建hadoop时的手写教程、教你避开一些技术障碍

2016-04-25

自动问答介绍

这是自然语言处理领域(NLP)刚入门时一个不错的参考文档,回顾了该领域的的发展历程及应于技术....

2016-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除