自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无限大地NLP_空木的专栏

自然语言处理、内容推荐、python

  • 博客(7)
  • 资源 (13)
  • 收藏
  • 关注

原创 SVM数学公式推导及个人总结

preface: 从认识这一SVM神器也快有一年了,用过svm工具包:libsvm及python sklearn里面的svm算法。但对其公式理解依然还不是很深入,最近师兄师姐们找工作面试完后跟我们交流,说到hr问关于SVM,CRF等等机器学习算法的公式推导、原理与其他的算法的差别、应用等等,并告诫我们说现在有时间可以总结下。一、SVM个人理解二、SVM数学公式推导预备知识:

2015-07-28 16:37:22 3750

原创 ubuntu系统安装好后一些基本软件的安装

preface: 因为某些原因重装了系统,原来在ubuntu下安装的一些软件又要重新安装,略微麻烦,整理下需要安装的步骤。#========================================1. Google浏览器: 参考linux公社给出的方法在Ubuntu 14.04下安装Google Chrome浏览器非常简单,只要到Chrome的网站下载Deb

2015-07-19 01:02:42 1858

原创 搁置之事

preface: 上午师姐去百度面试,算法问题。。。我们这搞NLP的,问算法问题?说是任何部门都会问这些简单的算法问题。回来后在leetcode以及《剑指offer》里找到了原题,算法,痛。以及其他的一些需要完成的任务,这段时间比较忙碌,先记录下来。1.There are two sorted arrays nums1 andnums2 of size m and n respective

2015-07-13 15:39:21 878

原创 stanford parser 使用说明

preface: 最近忙着的项目想试着用斯坦福的parser,来解析句子生成句法分析树,然后分析子树,与treekernal结合起来,训练。stanford parser神器下载下来了,可使用却是蛋疼。一大堆说明,却没个方便快捷关于总的介绍。一、必先利其器stanford parser主页:http://nlp.stanford.edu/software/lex-parser.sh

2015-07-11 23:06:02 26081 6

原创 python 编码问题——字符编码

preface: 承接上一条博客,帮师兄处理json文件读入数据库中。python读入数据到数据库中,出现编码问题。python里面定义了utf-8,然而文件中有日文、韩文、其他符号、拉丁编码等等,对编码不够熟悉果然是要死银的,弄了挺久的,却终究一个函数可破。encode()函数。decode()和encode()这两个函数,有空的时候还是多看看才是。# -*- coding: utf-8

2015-07-10 16:54:49 1215

原创 python json及mysql——读取json文件存sql、数据库日期类型转换、终端操纵mysql及python codecs读取大文件问题

preface: 最近帮师兄处理json文件,需要读到数据库里面,以备其后续从数据库读取数据。数据是关于yelp网站里面的: https://github.com/Yelp/dataset-examples,http://www.yelp.com/dataset_challenge/. 涉及到一些json和sql的问题,记录下。一、python sql安装python 自带轻型数据库s

2015-07-04 10:05:51 7093 1

原创 Synergy安装及使用方法

preface: 先前是需要在两部电脑之间互传文件,现在是需要直接从windows复制东西到ubuntu中,网上搜了下神器synergy可破。卤主硬件条件为:一个ubuntu系统的32为电脑和windows8系统的64位电脑。软件条件:synergy软件,在两个系统上都要装,而且需要是同一个版本。软件安装:卤主在ubuntu下直接sudo apt-get install syn

2015-07-01 11:14:57 19108 2

nlp停用词表

常用停用词词表 import pickle stopwords = pickle.load(open('stopWords.pkl','r'))

2019-03-10

conll2000的数据

http://www.chokkan.org/software/crfsuite/tutorial.html教程里 wget http://www.cnts.ua.ac.be/conll2000/chunking/train.txt.gz,wget不下来的时候,使用这份数据

2018-08-10

genia tagger

GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text -

2015-04-23

ICTPOS汉语词性标记集.doc

ICTPOS汉语词性标记集.doc定义了:计算所汉语词性标记集,对分词工具分词后的词性详细分类定义

2014-10-26

txt_to_xml.jar包

txt文件转成xml格式的文件,不是直接改后缀那么简单,想要得到标准的xml格式的文件,需要使用一些工具。

2014-04-29

机器学习实践指南

群里的一个朋友写的书,关于机器学习方面的,大家可以看看。

2014-04-22

自然语言标注

自然语言处理,如何标注自然语言的有些方法,是一本好书!

2014-04-22

PYTHON自然语言处理中文翻译 NLTK

中文版的《python自然语言处理》,很少,做自然语言处理这块的,可以参考参考。

2014-04-22

Deep Learning 实战之 word2vec

关于word2vec的介绍,并且介绍了一些模型,像是统计语言模型,Log-Linear模型,以及介绍了分布式实现word2vec。很好的参考学习word2vec的资料

2014-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除