python 包
文章平均质量分 73
无限大地NLP_空木
这个作者很懒,什么都没留下…
展开
-
python工具——pdfToTxt
preface:最近小妹需要将pdf文件转为word/txt,将里面的文字copy出来。一般可以复制的pdf可以使用adobe pdf之类的软件直接转,但是遇到不可复制的那种(比如截图到word转成的pdf),则没法用普通的软件转为word了。其次,网上的一些软件也声称可以转为word,但我实际上没遇到好使的,可能我尝试的少。列举下我尝试过的:1、比如https://smallpdf.com/...原创 2019-04-26 21:13:33 · 1094 阅读 · 0 评论 -
python sklearn包——grid search笔记
Preface:算法不够好,需要调试参数时必不可少。比如SVM的惩罚因子C,核函数kernel,gamma参数等,对于不同的数据使用不同的参数,结果效果可能差1-5个点,sklearn为我们提供专门调试参数的函数grid_search。在sklearn中以API的形式给出介绍。在离线包中函数较多,但常用为GridSearchCV()这个函数。1.GridSearchCV:看例子最为原创 2016-02-27 11:33:43 · 33914 阅读 · 1 评论 -
python函数——编码问题——str与Unicode的区别
一篇关于STR和UNICODE的好文章 整理下python编码相关的内容注意: 以下讨论为Python2.x版本, Py3k的待尝试开始用python处理中文时,读取文件或消息,http参数等等,一运行,发现乱码(字符串处理,读写文件,print),然后,大多数人的做法是,调用encode/decode进行调试,并没有明确思考为何出现乱码,所以调试时最常出现的错误:转载 2016-03-25 13:16:24 · 6505 阅读 · 0 评论 -
python sklearn画ROC曲线
preface:最近《生物信息学》多次谈到AUC,ROC这两个指标,正在做的project,要求画ROC曲线,sklearn里面有相应的函数,故学习学习。AUC:ROC:具体使用参考sklearn:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.htmlhttp://sciki原创 2015-04-17 16:11:04 · 56819 阅读 · 4 评论 -
python scrapy爬取动态页面
preface:最近学习工作之外,有个朋友需要爬取动态网页的要求,输入关键词爬取某个专利网站在该关键词下的一些专利说明。以往直接python urllib2可破,但是那只是对于静态网页可破,但是对于用js等其他的生成的动态网页的话,则貌似不行(没试过)。然后在网上找了些资料,发现scrapy结合selenium包好像可以。(之所以这么说,暂时卤主也还没实现,先记录下来。)#========原创 2015-06-17 23:10:57 · 8899 阅读 · 2 评论 -
python解析搜狗网页源代码:取搜索引擎返回的前page_num*10个链接的url(待续)
如题:python解析搜狗网页源代码:取搜索引擎返回的前page_num*10个链接的url(待续)原创 2014-10-28 22:22:39 · 2478 阅读 · 0 评论 -
Python正则表达式---全部能匹配的子串迭代器finditer及findall及以中文匹配部分中文
匹配某个中文到某个中文之间的词findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]): 搜索string,以列表形式返回全部能匹配的子串。原创 2014-04-15 19:55:07 · 3589 阅读 · 0 评论 -
python一些包的说明文档/教程链接
numpy, pandas, sklearn, xml, networkx, ctype, nltk, matplotlib, gensim, sympy, pyspark, anaconda, crfsuite, polyglot, svmlight, libsvm, os, sys, carb, recsys, NuPIC, pybrain, nilearn, pattern, fuel, bob, skdata, milk, iepy, quepy, hebel, mlxtend, nolearn原创 2015-04-15 10:11:46 · 5286 阅读 · 3 评论 -
Python 匹配字符积累
想使用正则表达式来获取一段文本中的任意字符,写出如下匹配规则: (.*) 结果运行之后才发现,无法获得换行之后的文本。于是查了一下手册,才发现正则表达式中,“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。 以下为正确的正则表达式匹配规则: ([\s\S]*) 同时,也可以用 “([\d\D]*)”、“([\w\W]*)” 来表示。 Web技术之家_www.waweb.原创 2014-03-24 20:14:40 · 816 阅读 · 0 评论 -
Python标准库13 循环器 (itertools)
preface:最近在弄一个比赛,需要用到叉乘,也就是笛卡尔积,群友提到一个强大的工具itertools,不多说,直接上代码In [1]: a = [1,2,3]In [2]: b = [5,6]In [3]: import ititertools itsdangerous In [3]: import itertools In [4]: list(itertool转载 2015-06-11 11:25:08 · 669 阅读 · 0 评论 -
python调用shell命令之三大方法
preface: 忙于最近的任务,需要用到libsvm的一些命令,如在终端运行java svm_train train_file model_file. pythonsubset.py file train_num train_file test_file等命令,但file的准备又是通过python写好的,file需要是libsvm能够接受的格式,故用python写好特征,转为libsvm原创 2015-06-25 20:22:34 · 10029 阅读 · 0 评论 -
python 找某个文件夹下第多少个文件
preface:同仁遇到一个问题,需要在上万个文件中找到第7000个文件,凌乱。。。查了下python相关资料,虽说没有完全解决,但还是有东西记录下来。一、对某个文件夹下遍历文件,os.walk可破。若是多个文件夹的话,配合isdir, isfile等函数可破(参数可有可无):for i in os.walk(os.getcwd(),topdown=True, onerror=No原创 2015-06-03 23:29:22 · 1797 阅读 · 0 评论 -
python sklearn包——3.1cross validation笔记
preface:做实验少不了交叉验证,平时常用from sklearn.cross_validation import train_test_split,用train_test_split()函数将数据集分为训练集和测试集,但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们提供了函数,我们只需要调用即可。sklearn包中cross validation的介绍:在这里。原创 2016-02-27 11:06:11 · 14767 阅读 · 0 评论 -
Python爬虫——爬取网页中的图片小试牛刀
Preface:以往爬取文本,这次需要爬取图片pdf,先上手一个例子,爬取pdf,先取得url,然后通过urllib.urlretrieve函数将url的网页内容远程下载到本地,第一个参数为url,第二个参数为文件名(代码中有误),第三个参数为回调函数,可以显示下载进度。另外,当需要爬取动态网站的图片时,用urllib.urlretrieve满足不了我们的要去需要"get",使用request.g原创 2016-01-06 21:57:34 · 3611 阅读 · 0 评论 -
Python Argparse包——命令行解析工具
最近在研究pathon的命令行解析工具,argparse,它是Python标准库中推荐使用的编写命令行程序的工具。用python来实现命令行,核心计算模块可以用c自己写扩展库,效果挺好。学习了argparse,在官方文档中找到一篇toturial,简单翻译了下。http://docs.python.org/2/howto/argparse.html#id1Argpa转载 2016-01-11 21:03:27 · 1725 阅读 · 0 评论 -
spark进行机器学习初探Demo
关键词:spark对象初始化 transformer定义 VectorAssembler特征合并 pipeline训练 模型保存及测试 结果保存from pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().getOrCreate()# 注意编码问题,python2.7...原创 2019-04-02 15:07:41 · 530 阅读 · 0 评论 -
python爬虫——基于selenium用火狐模拟登陆爬搜索关键词的微博
preface:最近的任务,还是爬微博。之前的用不上,post提交,还是不太熟悉,模拟登陆不了,故换种方式,用selenium模拟登陆,从此任何登录以及js调用都是浮云,我模拟登录分分钟解决。之前的时而有用,时而没用,不稳定,写得不够鲁棒。但这次,真能够抓取微博,表示还是有点进步的。主要任务是通过搜索关键词,爬取跟关键词有关的微博。主要流程:用selenium模拟鼠标键盘登录;原创 2016-04-23 11:40:25 · 6435 阅读 · 6 评论 -
python lxml包——解析xml文件遇到的问题处理
preface: 最近的任务需要解析xml文件,毋庸置疑用lxml,普通的解析流程网上博客甚多w3cschool里的就足够了,不用再赘言。可是处理的文件里面,明明有那个结点但xpath就是找不到,不知道为何,查找资料用print大法找到了目标,先记录下来。print nodeprint node.attribprint node.xpath("child::*")print no原创 2016-05-03 23:01:54 · 4022 阅读 · 0 评论 -
python 机器学习——文本特征抽取与向量化
假设我们刚看完诺兰的大片《星际穿越》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?这类问题就属于情感分析问题。这类问题处理的第一步,就是将文本转换为特征。因此,这章我们只学习第一步,如何从文本中抽取特征,并将其向量化。由于中文的处理涉及到分词问题,本文用一个简单的例子来说明如何使用Python的机器学习库,对转载 2015-09-28 11:14:46 · 5514 阅读 · 8 评论 -
python 爬虫——scrapy框架爬取新浪娱乐文本初探
preface: 最近师兄的任务需求,需要点新浪娱乐的新闻文本,通过半监督找到人物与人物之间的关系以充实训练语料库,方便后续实验,并且爬取文本的技能也是做研究的基础,之前也用过scrapy试着爬取动态网页的内容但是未成功,这次爬取新浪娱乐文本稍微弄懂了些,故记录下来。上一篇博客:爬取动态网页未成功环境:ubuntu14.04、anaconda下的python2.7、scrapy一、安装原创 2015-10-10 21:50:44 · 4654 阅读 · 0 评论 -
python string包——简易函数使用
python string模块的一些小函数示例原创 2015-09-01 11:35:11 · 2341 阅读 · 0 评论 -
python 爬虫及multiprocessing包——多线程爬取并解析百度贴吧某贴小trick
preface:看极客学院关于xpath的视频时,偶然看到可以用multiprocessing进行多线程爬取网页,只有小段代码,故先贴出来。mark下。coding:#!/usr/bin/env python# coding=utf-8from multiprocessing.dummy import Pool as ThreadPoolimport requestsimpor原创 2015-11-10 22:00:19 · 2505 阅读 · 0 评论 -
python 爬虫——抓取去哪儿网站景点部分信息
preface: 最近一个同学需要收集去哪儿网的一些景点信息,爬虫上场。像是这么有规律的之间用urllib及BeautifulSoup这两个包就可破。实际上是我想少了。一、抓取分析http://piao.qunar.com/ticket/detail_1.html及http://piao.qunar.com/ticket/detail_1774014993.html分别为齐庐山和西海景原创 2015-10-22 09:17:04 · 7638 阅读 · 0 评论 -
python sklearn包——cross-validation
官方cross-validation模型评估方式详细说明 模型评估(预测的质量):存在三种方式来评估预测结果的质量1、Estimator score method:每个估计模型都有自己的评价方式,可以直接使用2、Scoring parameter:模型评价工具使用cross-validation(cross_validation.cross_val_score和grid_s转载 2015-10-19 15:02:54 · 7438 阅读 · 0 评论 -
python sklearn包——混淆矩阵、分类报告等自动生成
preface:做着最近的任务,对数据处理,做些简单的提特征,用机器学习算法跑下程序得出结果,看看哪些特征的组合较好,这一系列流程必然要用到很多函数,故将自己常用函数记录上。应该说这些函数基本上都会用到,像是数据预处理,处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果,得出报告。1.输入从数据集开始,提取特征转化为有标签的数据集,转为向量。拆分成训练集和测试集,这里不多讲,在原创 2016-02-29 23:09:59 · 38829 阅读 · 3 评论 -
python 爬虫——针对query爬取百度百科页面
Preface:最近有些事情,需要爬取百度百科的东西,以前的给忘光了,不用就会忘记,还好有部分记录,可是以前大部分都因为没有记录又重新查找了很多东西,所以说经常记录很有必要。coding:import codecs#用于打开文件夹保证编码格式import urllib2#用于爬取import re#用于匹配找到urlimport os#用于创建文件夹from bs4原创 2016-03-15 22:45:49 · 3155 阅读 · 0 评论 -
Python sklearn包——mnist数据集下不同分类器的性能实验
Preface:使用scikit-learn各种分类算法对数据进行处理。2.2、Scikit-learn的测试 scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法,我们修改数据加载函数,即可一键测试:classifiers = {'NB':naive_bayes_classifier,转载 2016-03-03 20:35:02 · 7556 阅读 · 0 评论 -
python-Levenshtein几个计算字串相似度的函数解析
安装:$ pip install python-Levenshtein$ ipython>>> import Levenshteinlinux环境下,没有首先安装 python_Levenshtein ,用法如下:重点介绍几个该包中的几个计算 字串相似度 的几个函数实现。1. Levenshtein.hamming(str1, str2)计算 汉明距离。转载 2015-06-19 11:35:34 · 16174 阅读 · 0 评论 -
python sympy包符号运算进行定积分计算
preface:曾以为不会再用编程遇到定积分的计算,自从本科用过matlab编程计算积分后,没再用matlab,转而投向python的怀抱。python有对应的包sympy,用来计算积分,无论不定积分还是定积分。主要用到integrate这个函数,>>>:from sympy import integrate>>>:integrate?可以找到integrate函数的用法,原创 2015-06-17 10:44:03 · 31285 阅读 · 1 评论 -
python sklearn accuracy_score
sklearn自带评估模型准确率的函数:http://scikit-learn.org/stable/modules/model_evaluation.html以及使用cross_validation:http://scikit-learn.org/stable/auto_examples/exercises/plot_cv_digits.html#example-exercises-原创 2015-04-17 10:36:57 · 20502 阅读 · 2 评论 -
python K-means工具包初解
python numpy包里面kmeans2函数的应用原创 2014-11-16 00:49:16 · 7661 阅读 · 4 评论 -
centos6.4 python beautifulsoup安装
centos6.4默认安装的python版本为2.6,但是beautifulsoup4 与python2.6兼容的不好,因此需要把python升级到python2.7才行。下面介绍centos6.4中python升级为2.7的过程python升级首先需要安装的一些包yum groupinstall "Development tools"yum install zlib转载 2014-10-30 23:14:07 · 1708 阅读 · 0 评论 -
python 中BeautifulSoup入门
在前面的例子用,我用了BeautifulSoup来从58同城抓取了手机维修的店铺信息,这个库使用起来的确是很方便的。本文是BeautifulSoup 的一个详细的介绍,算是入门把。文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/什么是BeautifulSoup?Beautiful Soup 是用Python写的一个转载 2014-10-30 22:10:42 · 732 阅读 · 0 评论 -
python numpy包---矩阵运算
下面简要介绍Python和MATLAB处理数学问题的几个不同点。1.MATLAB的基本是矩阵,而numpy的基本类型是多为数组,把matrix看做是array的子类。2.MATLAB的索引从1开始,而numpy从0开始。1.建立矩阵a1=np.array([1,2,3],dtype=int) #建立一个一维数组,数据类型是int。也可以不指定数据类型,使用默认。几乎所有的数组转载 2014-09-21 19:17:15 · 4201 阅读 · 1 评论 -
python软件包安装---matplotlib包安装
Matplotlib的安装matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。Matplotlib的安装可以参见 官网链接 http://matplotlib.org/users/installing.html或者,python matplotlib包下载:http://matplotlib.org/downl转载 2014-03-20 17:13:36 · 1772 阅读 · 0 评论 -
python os.path模块学习
鲲鹏Web数据抓取 - 专业Web数据采集服务提供者 官方文档:http://docs.python.org/library/os.path.htmlos.path.abspath(path)返回path规范化的绝对路径。>>> os.path.abspath('test.csv')'C:\\Python25\\test.csv'>>> os转载 2014-04-21 14:39:44 · 689 阅读 · 0 评论 -
Python分词模块推荐:jieba中文分词
一、结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法二、结巴中文分词支持的分词模式目前结巴分词支持三种分词模式:精确模式,试图将句子最精确地切开,适转载 2014-10-26 13:57:45 · 5698 阅读 · 0 评论 -
Python 文本挖掘:jieba中文分词和词性标注
最近NLP新词发现及情感倾向性分类转载 2014-10-26 13:26:08 · 32006 阅读 · 4 评论 -
python os模块
Python的标准库中的os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。即它允许一个程序在编写后不需要任何改动,也不会发生任何问题,就可以在Linux和Windows下运行。下面列出了一些在os模块中比较有用的部分。它们中的大多数都简单明了。os.sep 可以取代操作系统特定的路径分割符。os.name字符串指示你正在使用的平台。比如对于Windo原创 2014-03-13 22:35:32 · 652 阅读 · 0 评论 -
python自然语言处理环境搭建
一、到NLTK的官网下载Python2.66(虽然Python已经到3.0了,但是2.x的比较稳定,兼容2.x的软件也比较多一些)、PyYAML和NLTK。下载地址:http://www.nltk.org/download点击打开链接,根据自己安装的python版本,安装对应的nltk版本启动python解释器,输入import nltk,如果报ImportError: No module转载 2014-03-20 14:34:58 · 1765 阅读 · 0 评论