自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(11)
  • 资源 (13)
  • 收藏
  • 关注

原创 python调用shell命令之三大方法

preface: 忙于最近的任务,需要用到libsvm的一些命令,如在终端运行java svm_train train_file model_file. pythonsubset.py file train_num train_file test_file等命令,但file的准备又是通过python写好的,file需要是libsvm能够接受的格式,故用python写好特征,转为libsvm

2015-06-25 20:22:34 10029

转载 python-Levenshtein几个计算字串相似度的函数解析

安装:$ pip install python-Levenshtein$ ipython>>> import Levenshteinlinux环境下,没有首先安装 python_Levenshtein ,用法如下:重点介绍几个该包中的几个计算 字串相似度 的几个函数实现。1. Levenshtein.hamming(str1, str2)计算 汉明距离。

2015-06-19 11:35:34 16177

原创 python scrapy爬取动态页面

preface:最近学习工作之外,有个朋友需要爬取动态网页的要求,输入关键词爬取某个专利网站在该关键词下的一些专利说明。以往直接python urllib2可破,但是那只是对于静态网页可破,但是对于用js等其他的生成的动态网页的话,则貌似不行(没试过)。然后在网上找了些资料,发现scrapy结合selenium包好像可以。(之所以这么说,暂时卤主也还没实现,先记录下来。)#========

2015-06-17 23:10:57 8899 2

原创 python sympy包符号运算进行定积分计算

preface:曾以为不会再用编程遇到定积分的计算,自从本科用过matlab编程计算积分后,没再用matlab,转而投向python的怀抱。python有对应的包sympy,用来计算积分,无论不定积分还是定积分。主要用到integrate这个函数,>>>:from sympy import integrate>>>:integrate?可以找到integrate函数的用法,

2015-06-17 10:44:03 31288 1

原创 linux文件夹对比命令——meld

preface:也不算是很大的事情,但也需要这么个东西,对比两个文件夹里的内容是否相同,知道差异在哪里,找出问题所在,vimdiff 只能比较两个文件是否相同,比较不了文件夹,不过可以写个bash脚本,另外,linux meld命令可破。安装:若未安装$ meld,则自动提示sudo apt-get install meld,$sudo apt-get install meld就好。使用:

2015-06-12 09:51:38 4197

转载 Python标准库13 循环器 (itertools)

preface:最近在弄一个比赛,需要用到叉乘,也就是笛卡尔积,群友提到一个强大的工具itertools,不多说,直接上代码In [1]: a = [1,2,3]In [2]: b = [5,6]In [3]: import ititertools itsdangerous In [3]: import itertools In [4]: list(itertool

2015-06-11 11:25:08 669

原创 linux系统下用到的小知识点积累

preface:在ubuntu下做事情,在终端下运行一些命令,或者在vim里面做一些操作,自然而然需要用到一些小知识点,没有怎么系统地看《鸟哥的菜》,基本上是遇到了什么问题想要实现什么功能,就查找博客,学下该知识点,有些零散,便稍微积累总结下。1.批处理命令sh:        需在终端运行多个命令时,将那些命令写到一个文件里面,并命名XX.sh,在终端运行sh XX.sh可破,终

2015-06-10 16:09:09 942

原创 python路上的陷阱及调试

preface: 这是个悲伤的故事。python基础没学好,容我写篇博客压压惊,不多说了,直接上代码。一、复制运算,连等会让所有对象共享一个地址。还是不要偷懒的好。In [4]: a = b = c = {}In [5]: a["abc"] = 2In [6]: bOut[6]: {'abc': 2}In [7]: a = {}In [8]: b = {}In [9]: c

2015-06-09 15:24:05 735

原创 python 找某个文件夹下第多少个文件

preface:同仁遇到一个问题,需要在上万个文件中找到第7000个文件,凌乱。。。查了下python相关资料,虽说没有完全解决,但还是有东西记录下来。一、对某个文件夹下遍历文件,os.walk可破。若是多个文件夹的话,配合isdir, isfile等函数可破(参数可有可无):for i in os.walk(os.getcwd(),topdown=True, onerror=No

2015-06-03 23:29:22 1797

原创 科研项目之经验之谈

preface:在走着走着的道路上,总会有些想法或者总结的念头,便想要记录下来,以备不时之需。ps:卤主搞自然语言处理相关,仅这块有些想法。一、学好理论基础卤主等有想法再些。二、从数据入手,分析数据,看准需要实现的目标无论科研还是工作,大同小异:做东西。在掌握基本方法(SVM, HMM, CRF, RF, LR等分类,聚类,回归工具)与工具(语言工具python,分

2015-06-02 16:16:13 1680

原创 python读取中文字符编码问题

preface:许久没遇到过编码问题,一没注意就被绊倒脚了。。一、编辑器是以ASICC编码格式的,若想在程序中有中文,需要改为utf-8格式,加入如下代码可破:import sys reload(sys) sys.setdefaultencoding('utf8') 或者参考卤主转载的这篇http://blog.csdn.net/u010454729/article/details/40476015,另外一种方式可破。二

2015-06-02 09:33:07 1587

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

Python标准库

本书介绍了各种python代码库,介绍了python各种包的使用,python爱好者、开发者必看的一本枕边书。

2014-11-02

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

算法导论-电子书

IT界,没看过《算法导论》的,可以回家了,最为基础的书籍,关于算法和数据结构方面的。神书,不解释

2014-04-22

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

python精要参考

虽然关于python语言的学习类的基础书一大堆,但是精简的却很少,《python精要参考》没那么多废话,确实可以参考参考

2014-04-22

计算机编程艺术

神书,不解释,《计算机编程艺术》,关于编程的一切技巧介绍之类的

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除