综合
文章平均质量分 89
云杉123
研究方向NLP,爱好篮球、骑行!
展开
-
如何写一个propose
场景设定:假如你要向你的导师、领导等提出一个新的想法时,那么你不能仅仅的凭嘴去跟他(她),这显得很苍白无力。怎么办呢?这是你需要向他提交一个propose。propose的中文翻译称作“提议”,它其实包括几个部分,分别是介绍(INTRODUCTION 介绍你提出问题的背景及动机)、问题(PROBLEM 也就是现在你发现存在的问题)、计划(PLAN 也就是你解决该问题的思路)、状态( SOTA 即调研原创 2017-01-20 21:13:48 · 1328 阅读 · 0 评论 -
python处理类xml文件遇到的坑
首先先确定xml文件有两个特点容易忽视, 1、xml文件有且只有一个根节点 2、xml文件的标签的属性都有引号“” 由于对xml文件不熟,并且对python处理xml文件不熟,故这两个坑用了将近一天的时间来填,谨记说到填坑,要特备感谢一驻马店的老乡“驻马店bd”qq已备注。不是他的帮助,估计还要整好长时间。特此感谢,虽然他看不到。那么我处理的文件到底什么样子呢,请看图: 就这这么个德行原创 2017-02-18 00:54:27 · 9096 阅读 · 0 评论 -
用word2vec训练文本摘要的词向量模型
在记录这篇博文前,有个声明: 1、训练文本时是分过词的文本,词与词之间为空格。不同类别的文档要最终写成一个文本,该文本是训练集所有文档的集合。 2、训练文本摘要的词向量模型我现在不知道怎么训练? 是把训练集中的摘要和正文对齐一块训练,还是单独训练正文的 部分。ok,下面是正文部分。 a、词向量是其他任务的前置任务。词向量是无监督学习出来的,后置任务直接用。所以我应该把中文和摘要做原创 2017-02-15 23:48:22 · 4866 阅读 · 1 评论 -
处理数据(文本)时遇到过的坑
训练词向量时,本来就是准备好格式一定训练文本,然后调用gensim开始训练。但是训练过程中出现了这样的幺蛾子,编码坑UnicodeDecodeError: 'utf8' codec can't decode bytes in position 4229-4231: invalid continuation byte可能原因,文本中有不能解码的字符,无法处理。于是参看一下文本,感觉还不错,效果未知原创 2017-02-21 00:02:54 · 665 阅读 · 0 评论 -
项目总结文章
项目总结原创 2017-03-20 09:40:21 · 863 阅读 · 0 评论 -
节点重要性和相似性
参考书籍:《网络科学导论》 参考博文:http://www.cnblogs.com/maybe2030/p/4665847.html 在我们的现实生活中,许多复杂系统都可以建模成一种复杂网络进行分析,比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等等。复杂网络不仅是一种数据的表现形式,它同样也是一种科学研究的手段。复杂网络方面的研究目前受到了广泛的关注和研究,尤其是随着各种在线原创 2017-03-06 00:22:36 · 21379 阅读 · 3 评论 -
centos6.x建立用户组和用户名小结
目的: 1、建立用户组sparkgroup 2、有新用户了,可以向用户组里sparkgroup添加用户 步骤: 1、[root@s2 home]# tail /etc/passwd 查看uid. 2、如,此处用还没用的1005 groupadd -g 1010 sparkgroup #建立用户组sparkgroup,其uid为10103、想用户组sparkgroup原创 2017-02-27 16:18:49 · 4634 阅读 · 0 评论 -
声明,博客地址换啦
本人从2017.3.30日起,会在简书上继续更新技术博客。欢迎查看!简书地址:http://www.jianshu.com/u/4007ac46018d原创 2017-05-04 18:37:25 · 737 阅读 · 0 评论