自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(15)
  • 资源 (13)
  • 收藏
  • 关注

转载 Ubuntu下VIM使用指南

网络上类似的教程都是提示先执行如 下命令:sudo vim /etc/apt/sources.list但我相信有想当多的人,根本不会用VIM。而且,网上可以找到的,关于VI的教程,更是多为能吓死人的上百页说明。其实, 从我个人的实践看,完全不需要如此夸张。要完成最基本的编辑,只要熟悉几个命令,就是把VIM用得很好。这里就列举一下:Esc:

2014-09-30 18:12:05 913

转载 从Larbin看互联网爬虫设计

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内 容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入 口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。    要设计一个爬虫,首先需要考虑

2014-09-28 22:03:24 779

转载 Linux网络编程入门 (转载)

(一)Linux网络编程--网络知识介绍Linux网络编程--网络知识介绍客户端和服务端         网络程序和普通的程序有一个最大的区别是网络程序是由两个部分组成的--客户端和服务器端.客户端        在网络程序中,如果一个程序主动和外面的程序通信,那么我们把这个程序称为客户端程序。 比如我们使用ftp程序从另外一        个地方获取文件的时候,是我们的f

2014-09-28 21:56:23 641

转载 Larbin的配置

Larbin的使用(1)运行larbin./larbin -c conf_file选项-c是指定使用的配置文件,不指定时默认使用的是larbin.conf当larbin运行起来后进行下面的操作.(2)在larbin.conf的第12行是httpPort 8081,由于这个端口和我机器上的其他应用冲突了,所以我改成了8099.这样你在浏览器中输入local

2014-09-28 21:49:35 767

转载 ubuntu下右键菜单添加新建word、excel文档等快捷方式.

ubuntu下怎样把新建word文档、excel文档等快捷的新建方式加入右键呢?习惯了win下的朋友可以按照下面的步骤来进行实现习惯了win下的新建word文档、excel文档等快捷的新建方式,突然到了ubuntu下怎样把他们加入右键呢?其实ubuntu早就考虑好了…步骤1、打开libreoffice:点击dash菜单搜索libreoffice并打开。 

2014-09-28 15:53:25 5900

转载 开源网络爬虫Larbin的安装及配置

大概用了两天的时间用来安装和配置Larbin。总体来说,关于使用和配置larbin的资料还是有很多的,但在安装和配置过程中,我还是遇到了点问题。不过,终于,问题被解决了,larbin能帮我爬东西了!先说下自己遇到的问题吧:1. configure时提示没有makedepend程序。因为自己使用的是centos,所用使用yum install 来安装makedepend程序。安装过程

2014-09-27 09:04:46 1195

转载 在Ubuntu运行第一个c++程序

在Ubuntu终端输入sudo apt-get install build-esstialsudo apt-get install g++ gdb然后到:http://www.codelite.org下载IDE。(可省)安装好相关package接在在vim下编辑hello.cpp文件,保存退出。

2014-09-27 08:52:28 2530

转载 How to customize Larbin

Where do the pages arrive ?In order to customize larbin according to your needs, you have to create a userouput file (see src/interf/useroutput.cc). This file must define the 4 following functions :

2014-09-27 08:51:11 917

转载 Linux之Ubuntu学习003——gcc/g++编译器

Linux 环境下最常用的编译器应该要数 gcc/g++ ,除非不是使用 C/C++ 作为编程语言。 gcc 和 g++ 是 Linux 平台编译器的事实标准。GCC程序的编译过程:使用 gcc/g++ 编译程序时,编译过程应该分为 4 个阶段:1、预处理 (Pre-Processing) ;2、编译 (Compiling) ;3、汇编 (Assemblin

2014-09-26 22:18:12 737

转载 ubuntu 终端下快捷键

1.关于终端的快捷键:Tab:tab键是比较常用的一个快捷键,它的作用是补全文件名或者路径。举例来说,输入”cd /ho”在按一下tab键,终端里就会显示”cd /home”了。如果您的文件夹下,有两个名字开头部分相同的文件,比如有”picture001.bmp”和”picture002.bmp”两个文件,输入”rm pic”以后按下tab键,就会补全成”rm picture”,您

2014-09-26 19:24:57 700

原创 Windows7刻入ubuntu 14.04 教程(双系统)

下载ubuntu 14.04http://www.ubuntukylin.com/downloads/

2014-09-26 14:44:02 817

原创 硕士毕业设计积累

Record---------------------------------20140925---------------------------------

2014-09-25 18:12:25 1127

转载 python numpy包---矩阵运算

下面简要介绍Python和MATLAB处理数学问题的几个不同点。1.MATLAB的基本是矩阵,而numpy的基本类型是多为数组,把matrix看做是array的子类。2.MATLAB的索引从1开始,而numpy从0开始。1.建立矩阵a1=np.array([1,2,3],dtype=int)  #建立一个一维数组,数据类型是int。也可以不指定数据类型,使用默认。几乎所有的数组

2014-09-21 19:17:15 4201 1

转载 Texmaker使用方法、Latex的优缺点

首先跟大家谈一谈什么是Latex。以下两段段文字直接引自或修改自Leibniz(http://hi.baidu.com/leibniz_gone/blog/item/be320b2460b8c233c89559c4.html)“Latex是什么,说它是一个“排版软件”。Latex不仅可以写论文,还可以处理日常生活中的各种文档工作。如写信,写书,画表格,甚至做幻灯片等等。它是

2014-09-13 15:53:36 7378

转载 面试题积累

1.一个整数,大于0,不用循环和本地变量,按照n,2n,4n,8n的顺序递增,当值大于5000时,把值按照指定顺序输出来(笔试题)

2014-09-07 17:07:57 1049

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

Python标准库

本书介绍了各种python代码库,介绍了python各种包的使用,python爱好者、开发者必看的一本枕边书。

2014-11-02

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

算法导论-电子书

IT界,没看过《算法导论》的,可以回家了,最为基础的书籍,关于算法和数据结构方面的。神书,不解释

2014-04-22

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

python精要参考

虽然关于python语言的学习类的基础书一大堆,但是精简的却很少,《python精要参考》没那么多废话,确实可以参考参考

2014-04-22

计算机编程艺术

神书,不解释,《计算机编程艺术》,关于编程的一切技巧介绍之类的

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除