无限大地NLP_空木的专栏

研究自然语言处理、机器学习、信息抽取等方向

python若干小函数的使用

preface: 在使用python的路上,总会遇到各种问题,各种trick,正如《编写高质量代码——改善Python编程的91个建议》,以下也是自己在路上不断积累并且觉得有用的trick。 1.字典的get()函数:

2015-09-03 20:43:49

阅读数 1679

评论数 0

自然语言处理的一些工具文档介绍

NLP, NER, POS, CHUNK, 分词, tool,句法依存

2015-04-23 11:10:45

阅读数 3689

评论数 0

python一些包的说明文档/教程链接

numpy, pandas, sklearn, xml, networkx, ctype, nltk, matplotlib, gensim, sympy, pyspark, anaconda, crfsuite, polyglot, svmlight, libsvm, os, sys, ca...

2015-04-15 10:11:46

阅读数 4541

评论数 3

Python 数据处理——小函数

preface:最近在整内比赛MDD。遇到一些数据处理方面的事情,用python pandas是最为方便的,远比我想象的强大。几行代码就完成了数据的处理,多个文件的融合,再用sklearn里面的模型跑一跑,就能得到结果。为此,经常记录下来,对数据处理的应用。 一、Pandas合集 df = ...

2017-10-24 10:29:13

阅读数 635

评论数 0

JAVA FTPClient——远程文件操作

FTPClient使用初探

2017-10-17 11:35:59

阅读数 2647

评论数 0

Java JVM——基础概念介绍

Java jvm 深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)——周志明

2017-09-01 15:53:59

阅读数 337

评论数 0

工具——intellij相关

Preface:已经不知不觉入职一个多月了。在公司里线上用java,线下可用python。目前熟悉上线流程、写脚本等工作,稍微写写java,尽管不是那么喜欢java,但写着写着发现还是可以的,只是环境配置啥的麻烦。而且公司统一用intellij,也要熟悉下新的工具,用着用着就发现这工具吊炸天了,相...

2017-03-01 11:45:09

阅读数 620

评论数 1

python算法——字符串表达式的计算

preface:最近有个面试,被要求给出一个字符串表达式,计算出结果。本以为是见到过的,想着用一个栈,然后被面试官打断说你这样是有问题的,然后想了说用树,又被打断说是有问题的,再仔细想想。结果还是没整出来。哎。回来翻了下leetcode发现有两道类似。 leetcode 224 Basic Ca...

2016-07-10 18:43:42

阅读数 8054

评论数 1

python lxml包——解析xml文件遇到的问题处理

preface: 最近的任务需要解析xml文件,毋庸置疑用lxml,普通的解析流程网上博客甚多w3cschool里的就足够了,不用再赘言。可是处理的文件里面,明明有那个结点但xpath就是找不到,不知道为何,查找资料用print大法找到了目标,先记录下来。 print node prin...

2016-05-03 23:01:54

阅读数 2195

评论数 0

python爬虫——基于selenium用火狐模拟登陆爬搜索关键词的微博

preface:最近的任务,还是爬微博。之前的用不上,post提交,还是不太熟悉,模拟登陆不了,故换种方式,用selenium模拟登陆,从此任何登录以及js调用都是浮云,我模拟登录分分钟解决。之前的时而有用,时而没用,不稳定,写得不够鲁棒。但这次,真能够抓取微博,表示还是有点进步的。 主要任务是...

2016-04-23 11:40:25

阅读数 4360

评论数 4

python爬虫——根据指定关键词爬取新浪微博

preface:最近因为任务的关系,需要各种爬虫,根据指定人物爬百度百科、指定电影电视剧爬豆瓣影评、指定餐馆爬大众点评评论等等,这些都挺简单的,不过就是各种情况的分析麻烦。像是爬取人物百科,有的人物具有多义项;一般都是baike.baidu.com这个入口爬的,而有点人不在列表中,而是直接跳转,有...

2016-04-12 22:24:17

阅读数 20998

评论数 1

SVMrank——Support Vector Machine for Ranking(SVMrank——使用svm的排序)

preface:最近所忙的任务需要用到排序,同仁提到SVMrank这个工具,好像好强大的样纸,不过都快十年了,还有其他ranklib待了解。 原文链接:SVMrank,百度搜索svm rank即可。 SVMrank 基于支持向量机的排序 作者::Thorsten Joachim...

2016-04-01 16:58:01

阅读数 8014

评论数 0

python数据结构——层次遍历的两种方法

preface:主要是最近用层次遍历比较多,先中后序的遍历都有递归与非递归的方式,也比较容易明白,但层次不是很熟悉,自己不是很擅长,故记录下来。 递归与非递归 class TreeNode(object): def __init__(self, x): self.val ...

2016-03-28 14:56:28

阅读数 2128

评论数 0

python函数——编码问题——str与Unicode的区别

一篇关于STR和UNICODE的好文章  整理下python编码相关的内容 注意: 以下讨论为Python2.x版本, Py3k的待尝试 开始 用python处理中文时,读取文件或消息,http参数等等,一运行,发现乱码(字符串处理,读写文件,print),然后,大多数人的做法是,调用en...

2016-03-25 13:16:24

阅读数 4858

评论数 0

python 爬虫——针对query爬取百度百科页面

Preface:最近有些事情,需要爬取百度百科的东西,以前的给忘光了,不用就会忘记,还好有部分记录,可是以前大部分都因为没有记录又重新查找了很多东西,所以说经常记录很有必要。 coding: import codecs#用于打开文件夹保证编码格式 import urllib2#用于爬取 impor...

2016-03-15 22:45:49

阅读数 2361

评论数 0

TREE KERNELS IN SVM-LIGHT---在svm-light中树核的使用(翻译)

preface:树核是一个计算相似度比较强大的工具。在nlp领域里面对句子的语义分析,解析出句法分析树,通过比较树的结构,对比不同句子的相似度等等,可以应用到很多方面。其中树核早就在svm-light这个强大的工具里面实现了,只需要将需要的句子的语义解析树作为输入,就能对任务进行分类,可以应用于多...

2016-03-10 17:24:25

阅读数 2384

评论数 0

Python sklearn包——mnist数据集下不同分类器的性能实验

Preface:使用scikit-learn各种分类算法对数据进行处理。 2.2、Scikit-learn的测试        scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法,我们修改数据加载函数,即可一键测试: cla...

2016-03-03 20:35:02

阅读数 5478

评论数 0

python sklearn包——混淆矩阵、分类报告等自动生成

preface:做着最近的任务,对数据处理,做些简单的提特征,用机器学习算法跑下程序得出结果,看看哪些特征的组合较好,这一系列流程必然要用到很多函数,故将自己常用函数记录上。应该说这些函数基本上都会用到,像是数据预处理,处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果,得出报告。 1.输...

2016-02-29 23:09:59

阅读数 22719

评论数 0

python sklearn包——grid search笔记

Preface:算法不够好,需要调试参数时必不可少。比如SVM的惩罚因子C,核函数kernel,gamma参数等,对于不同的数据使用不同的参数,结果效果可能差1-5个点,sklearn为我们提供专门调试参数的函数grid_search。 在sklearn中以API的形式给出介绍。在离线包中函数较多...

2016-02-27 11:33:43

阅读数 27097

评论数 1

python sklearn包——3.1cross validation笔记

preface:做实验少不了交叉验证,平时常用from sklearn.cross_validation import train_test_split,用train_test_split()函数将数据集分为训练集和测试集,但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们...

2016-02-27 11:06:11

阅读数 12754

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭