自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(5)
  • 资源 (13)
  • 收藏
  • 关注

原创 python数据结构——层次遍历的两种方法

preface:主要是最近用层次遍历比较多,先中后序的遍历都有递归与非递归的方式,也比较容易明白,但层次不是很熟悉,自己不是很擅长,故记录下来。递归与非递归class TreeNode(object): def __init__(self, x): self.val = x self.left = None self.right

2016-03-28 14:56:28 3226

转载 python函数——编码问题——str与Unicode的区别

一篇关于STR和UNICODE的好文章 整理下python编码相关的内容注意: 以下讨论为Python2.x版本, Py3k的待尝试开始用python处理中文时,读取文件或消息,http参数等等,一运行,发现乱码(字符串处理,读写文件,print),然后,大多数人的做法是,调用encode/decode进行调试,并没有明确思考为何出现乱码,所以调试时最常出现的错误:

2016-03-25 13:16:24 6574

原创 python 爬虫——针对query爬取百度百科页面

Preface:最近有些事情,需要爬取百度百科的东西,以前的给忘光了,不用就会忘记,还好有部分记录,可是以前大部分都因为没有记录又重新查找了很多东西,所以说经常记录很有必要。coding:import codecs#用于打开文件夹保证编码格式import urllib2#用于爬取import re#用于匹配找到urlimport os#用于创建文件夹from bs4

2016-03-15 22:45:49 3204

翻译 TREE KERNELS IN SVM-LIGHT---在svm-light中树核的使用(翻译)

preface:树核是一个计算相似度比较强大的工具。在nlp领域里面对句子的语义分析,解析出句法分析树,通过比较树的结构,对比不同句子的相似度等等,可以应用到很多方面。其中树核早就在svm-light这个强大的工具里面实现了,只需要将需要的句子的语义解析树作为输入,就能对任务进行分类,可以应用于多类nlp任务中。Tree kernels in svm-light原文的介绍也比较详细(百度svm tk即可),卤煮这里也是根据自己的理解稍微记录点东西。

2016-03-10 17:24:25 4431

转载 Python sklearn包——mnist数据集下不同分类器的性能实验

Preface:使用scikit-learn各种分类算法对数据进行处理。2.2、Scikit-learn的测试       scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法,我们修改数据加载函数,即可一键测试:classifiers = {'NB':naive_bayes_classifier,

2016-03-03 20:35:02 7582

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除