自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(14)
  • 资源 (13)
  • 收藏
  • 关注

原创 自然语言处理的一些工具文档介绍

NLP, NER, POS, CHUNK, 分词, tool,句法依存

2015-04-23 11:10:45 4509 1

原创 python一些包的说明文档/教程链接

numpy, pandas, sklearn, xml, networkx, ctype, nltk, matplotlib, gensim, sympy, pyspark, anaconda, crfsuite, polyglot, svmlight, libsvm, os, sys, carb, recsys, NuPIC, pybrain, nilearn, pattern, fuel, bob, skdata, milk, iepy, quepy, hebel, mlxtend, nolearn

2015-04-15 10:11:46 5334 3

转载 十个你可能不知道的ubuntu快捷键

在本文中,我将说的所ubuntu下的快捷键。恩,对linux不太熟悉的同学,我稍微说明一下,ubuntu是最流行的linux发行版之一。我用ubuntu有年头了,除了经常使用的Ctrl + C (复制) and Ctrl + V (粘帖),我还发现一些不常用但很有用的快捷键。如果你现在正搜罗更多的快捷键,相信你可以在这里找到一些新的。1.前一个后一个工作区的切换如果你经常使用工作区

2015-04-23 11:26:58 605

转载 生物语料词性标注工具——genia tagger

GENIA Tagger- part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -What's New20 Oct. 2006A demo page is available.6 Oct. 2006Version 3.0: The tagger now

2015-04-23 10:59:45 3524 5

转载 中英文文本预处理软件、工具和算法

1.中文分词、词性标注中科院:ictclashttp://www.ictclas.org/sub_1_1.html具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。 哈工大信息检索实验室:LTP 语言技术平台http://ir.hit.edu.cn/http://ir.hit.edu.cn/demo/ltp/S

2015-04-23 10:46:23 1628

转载 常用awk命令(转)

变量名 含义ARGC 命令行变元个数ARGV 命令行变元数组FILENAME 当前输入文件名FNR 当前文件中的记录号FS 输入域分隔符,默认为一个空格RS 输入记录分隔符NF 当前记录里域个数NR 到目前为止记录数OFS 输出域分隔符ORS 输出记录分隔符1、awk '/101/'               file 显示文件file中包含101

2015-04-22 20:38:33 659

原创 ubuntu windows互传文件、samba服务器搭起

Preface: ubuntu和windows互传文件,我一定要吐槽!这啥跟啥。因为最近在弄个东西,在ubuntu下生成的结果,需要频繁地转到windows下,windows下的数据要传到ubuntu下,前几天通过印象笔记和百度云,用网络传可破,但是特么太麻烦了,上传下载。查了samba,特么太复制,ubuntu和windows互传文件,弄了好久才弄成功。而且弄成功了都不知道怎么弄成功的,先记录下

2015-04-20 10:46:12 2823

原创 python sklearn画ROC曲线

preface:最近《生物信息学》多次谈到AUC,ROC这两个指标,正在做的project,要求画ROC曲线,sklearn里面有相应的函数,故学习学习。AUC:ROC:具体使用参考sklearn:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.htmlhttp://sciki

2015-04-17 16:11:04 56889 4

原创 python sklearn accuracy_score

sklearn自带评估模型准确率的函数:http://scikit-learn.org/stable/modules/model_evaluation.html以及使用cross_validation:http://scikit-learn.org/stable/auto_examples/exercises/plot_cv_digits.html#example-exercises-

2015-04-17 10:36:57 20577 2

原创 python xml解析例子

# -*- coding: utf-8 -*-"""Created on Thu Apr 16 23:18:27 2015@author: shifeng"""'''功能:解析CDR_sample.xml文件,输出格式为DNorm接收的格式,并将训练集的“label”写入到文档中xml文件:见CSDN资源共享参考博客:http://www.cnblogs.com/fnng/p/3

2015-04-16 23:58:29 1423

转载 Ubuntu Unity 桌面快捷键及切换窗口技巧

Ubuntu操作基本快捷键* 打开主菜单 = Alt + F1* 运行 = Alt + F2* 显示桌面 = Ctrl + Alt + d* 最小化当前窗口 = Alt + F9* 最大化当前窗口 = Alt + F10* 关闭当前窗口 = Alt + F4* 截取全屏 = Print Screen* 截取窗口 = Alt + Print Screen默认特殊快

2015-04-15 16:35:02 7039

转载 ubuntu下第一个java程序

JRE vs OpenJDK vs Oracle JDK在我们继续了解如何安装Java之前,让我们快速地了解JRE、OpenJDK和Oracle JDK之间的不同之处。JRE(Java Runtime Environment),它是你运行一个基于Java语言应用程序的所正常需要的环境。如果你不是一个程序员的话,这些足够你的需要。JDK代表Java开发工具包,如果你想做一些有关Java的

2015-04-15 16:26:49 3137 1

转载 python 机器学习之sklearn-LR

from numpy import * from sklearn.datasets import load_iris # import datasets# load the dataset: irisiris = load_iris() samples = iris.data#print samples target = iris.target # import the

2015-04-15 09:46:28 11412

原创 leetcode个人笔记

leetcode个人笔记

2015-04-14 17:04:08 1369

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除