2017年02月_云杉123

05月 03月 02月 01月

原创 Xshell登录不显示登录名框

今天用Xshell登录linux服务器，但是另我意外的是，在我输完ip后，直接蹦出来登录密码框，而登录名显示的是我另一的账号的登录名。打开会开框可以显示：怎么办呢，登录名不对，肯定登录不上哇，于是摸索出下面的这条道： 1、点击文件步2、 3、查找出现的用户名更改后保存即可 4、更改后发现，用户名已经更改过来了然后登录就行了，搞定！

2017-02-27 17:03:04 13682 3

原创 centos6.x建立用户组和用户名小结

目的： 1、建立用户组sparkgroup 2、有新用户了，可以向用户组里sparkgroup添加用户步骤： 1、[root@s2 home]# tail /etc/passwd 查看uid. 2、如，此处用还没用的1005 groupadd -g 1010 sparkgroup #建立用户组sparkgroup，其uid为10103、想用户组sparkgroup

2017-02-27 16:18:49 4670

原创 python 编码与解码

一般情况下文件的编码类型可分为两大类，可以type(line)查看： 1、若line为Unicode类型 Unicode码要想转化为其它编码(如utf-8码)，可以直接 line.encode(‘utf-8’)2、若line为str类型则line又可分为好几类编码，如“ascii”、“utf-8”、“gbk”、“windows-1252”等码。划重点了，假如此时line编码类型是A，若想

2017-02-24 14:40:20 617

原创 Python列表操作总结

列表操作包含以下函数: 1、cmp(list1, list2)：比较两个列表的元素 2、len(list)：列表元素个数 3、max(list)：返回列表元素最大值 4、min(list)：返回列表元素最小值 5、list(seq)：将元组转换为列表列表操作包含以下方法: 1、list.append(obj)：在列表末尾添加新的对象 2、list.count(obj)：统

2017-02-22 00:27:13 626

原创处理数据（文本）时遇到过的坑

训练词向量时，本来就是准备好格式一定训练文本，然后调用gensim开始训练。但是训练过程中出现了这样的幺蛾子，编码坑UnicodeDecodeError: 'utf8' codec can't decode bytes in position 4229-4231: invalid continuation byte可能原因，文本中有不能解码的字符，无法处理。于是参看一下文本，感觉还不错，效果未知

2017-02-21 00:02:54 677

原创 python处理类xml文件遇到的坑

首先先确定xml文件有两个特点容易忽视， 1、xml文件有且只有一个根节点 2、xml文件的标签的属性都有引号“” 由于对xml文件不熟，并且对python处理xml文件不熟，故这两个坑用了将近一天的时间来填，谨记说到填坑，要特备感谢一驻马店的老乡“驻马店bd”qq已备注。不是他的帮助，估计还要整好长时间。特此感谢，虽然他看不到。那么我处理的文件到底什么样子呢，请看图：就这这么个德行

2017-02-18 00:54:27 9164

原创用word2vec训练文本摘要的词向量模型

在记录这篇博文前，有个声明： 1、训练文本时是分过词的文本，词与词之间为空格。不同类别的文档要最终写成一个文本，该文本是训练集所有文档的集合。 2、训练文本摘要的词向量模型我现在不知道怎么训练？是把训练集中的摘要和正文对齐一块训练，还是单独训练正文的部分。ok,下面是正文部分。 a、词向量是其他任务的前置任务。词向量是无监督学习出来的，后置任务直接用。所以我应该把中文和摘要做

2017-02-15 23:48:22 4893 1

原创写代码训练词向量时踩过的坑

在用python的第三方包gensim训练词向量时，踩到了如下的坑，记录下来： # -*- coding: utf-8 -*- from gensim.models import word2vec #sentences=word2vec.Text8Corpus(u"C:\\Users\\PengjunZhu\\Desktop\\test1.txt") sentences = [['处理'

2017-02-14 00:11:50 3313 1

先明确一点，选用不同的词向量作为模型的初始值，效果的差异非常大！那么怎么产生一个好的词向量呢？参看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F1、英文的词向量可以训练，也可以用Google训练好的那个模型。 2、但是中文就不行了，没有一个公布一个权威的词向量。所以，当我们自己做试验时，就需要动手训练这个语义空间的词向量（

2017-02-11 02:05:40 10551 2

搭建Hadoop伪分布

搭建hadoop时的手写教程、教你避开一些技术障碍

2016-04-25

自动问答介绍

这是自然语言处理领域(NLP)刚入门时一个不错的参考文档，回顾了该领域的的发展历程及应于技术....