![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python语法相关
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
pdfplumber是怎么做表格抽取的(一)
pdfplumber是怎么做表格抽取的(一)冰焰虫子兴趣广泛,包含但不限于:coding,NLP,CV,深度学习笔者把自己这篇原本发布在github page上的文章迁移到了这里,原github page网址:https://iceflameworm.github.io/2019/12/02/pdfplumber-table-extraction-1/pdfplumber是一款完全用python开发的pdf解析库,对于线框完全的表格,pdfminer能给出比较好的抽取效果,但是对于线..转载 2020-09-01 09:56:23 · 1772 阅读 · 0 评论 -
einsum初探
Einsum 是干嘛的?使用爱因斯坦求和约定,可以以简单的方式表示许多常见的多维线性代数数组运算。举个栗子:给定两个矩阵A和B,我们想对它们做一些操作,比如 multiply、sum或者transpose。虽然numpy里面有可以直接使用的接口,能够实现这些功能,但是使用enisum可以做的更快、更节省空间。比如:A = np.array([0, 1, 2])B = np.array([[ 0, 1, 2, 3], [ 4, 5, 6, 7],转载 2020-07-03 11:50:30 · 867 阅读 · 0 评论 -
python高并发的解决方案
python高并发的解决方案一.cdn加速简单说就是把静态资源放到别人服务器上全称:Content Delivery Network或Content Ddistribute Network,即内容分发网络基本思路:尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向转载 2020-06-24 15:59:53 · 1338 阅读 · 0 评论 -
nginx+uwsgi 和nginx+gunicorn区别、如何部署
[线上环境部署Django,nginx+uwsgi 和nginx+gunicorn,这两种方案,应该如何选择?]大家是采用的何种部署方式?第一种,高并发稳定一点我们公司使用的是nginx+gunicorn,主要是方便。性能可以从其他方面优化。随便吧我们用的是nginx supervisor gunicornInstagram由uwsgi转到gunicorn,建议用g...转载 2020-04-26 14:24:57 · 1216 阅读 · 0 评论 -
Python导入模块或是库文件的方法
在IDLE中报错:Traceback (most recent call last): File "C:\Python27\test_biKmeans.py", line 27, in centroids, clusterAssment = biKmeans(dataSet, k)TypeError: 'module' object is not callable原创 2015-06-23 21:26:48 · 1171 阅读 · 0 评论 -
简述朴素贝叶斯估计
第一部分贝叶斯公式的基本形式为:第二部分朴素贝叶斯法的过程:(1)确定特征属性,架设每个属性之间是相互独立的。(2)分类器训练阶段:A对每个类别计算P(Yi) B对每个特征属性计算所有划分的条件概率P(X|Yi);(3)分类器训练阶段:以P(Yi)* P(X|Yi) 最大分类项作为X所属的类别。简要的来说:对于给出的待分类项,求解此项出现的原创 2015-07-27 15:29:38 · 1048 阅读 · 0 评论 -
Canopy聚类算法分析
Canopy聚类算法是可以并行运行的算法,数据并行意味着可以多线程进行,加快聚类速度,开源ML库Mahout使用。一、概念与传统的聚类算法(比如 K-means )不同,Canopy 聚类最大的特点是不需要事先指定 k 值( 即 clustering 的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用 C原创 2015-07-27 22:25:54 · 2140 阅读 · 4 评论 -
Python实现一个简易的网页抓取程序
#coding=utf-8import urllibimport redef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.c原创 2015-07-14 15:26:01 · 1273 阅读 · 0 评论 -
Python函数大全
一、数学运算类abs(x)求绝对值1、参数可以是整型,也可以是复数2、若参数是复数,则返回复数的模complex([real[, imag]])创建一个复数divmod(a, b)分别取商和余数注意:整型、浮点型都可以float([x])将一个字符串或数转换为浮点数。如果无参数将返回0.原创 2015-07-30 20:26:29 · 2063 阅读 · 0 评论 -
Python连接数据库并进行简单操作整理
下载安装MySQLdb如果已经安装了easy_install插件,那么就好说了,你想装什么库或是包,只需使用easy_install + 库,就可以了。但是遇到了这个问题:于是考虑直接用安装包来安装MySQLdb吧。我下的是这个版本,注意版本要跟python的版本一致: MySQL-python-1.2.3.win32-py2.7.exe原创 2015-07-20 09:30:13 · 1171 阅读 · 0 评论 -
利用MySQLdb模块实现对数据库的简单操作
首先是数据库操作的步骤:1.和数据库建立连接2.执行sql语句,接收返回值3.关闭数据库连接0.引入MySQLdb库import MySQLdb1.和数据库建立连接conn=MySQLdb.connect(host="localhost",user="root",passwd="sa",db="mytable")提供的connect方法用来和数据库建立连接,原创 2015-07-20 15:49:33 · 842 阅读 · 0 评论 -
python的easy_install安装指南
下载安装python安装工具下载地址:http://pypi.python.org/pypi/setuptools 可以找到正确的版本进行下载。win7 32位可以下载setuptools-0.6c11.win32-py2.7.exe 。Centos下的安装方法wget -q http://peak.telecommunity.com/dist/ez_setup.pypython ez_s原创 2015-10-22 11:52:05 · 574 阅读 · 0 评论 -
Deep learning with Theano 官方中文教程(翻译)(四)—— 卷积神经网络(CNN)
供大家相互交流和学习,本人水平有限,若有各种大小错误,还请巨牛大牛小牛微牛们立马拍砖,这样才能共同进步!若引用译文请注明出处http://www.cnblogs.com/charleshuang/。 本文译自:http://deeplearning.net/tutorial/lenet.html文章中的代码截图不是很清晰,可以去上面的原文网址去查看。 1、动机 卷积神经网络转载 2016-09-19 16:02:27 · 665 阅读 · 0 评论 -
Python模块和函数的快速查看
如果想查看某个模块提供了哪些函数等,我们可以进入python控制台,然后导入模块,再使用help(模块名)来查看这个模块的功能有哪些。 以string模块为例: >>> import string>>> help(string)Help on module string:NAME string - A collection of string转载 2016-09-20 09:16:26 · 2836 阅读 · 0 评论 -
Parallel Python实现python程序的并行及多cpu多核利用
为啥要这个模块:Python是解释型的语言,而Python解释器使用GIL(全局解 释器锁)来在内部禁止并行执行,正是这个GIL限制你在多核处理器上同一时间也只能执行一条字节码指令. 听朋友说python 3.0 里面已经改进, 默认有了多处理器编程的库了. Python2.XX暂时还不支持。Parallel Python 这个库,正是为支持smp多路多核多cpu而设计的, 而且它转载 2016-10-09 14:32:57 · 46070 阅读 · 1 评论 -
Python 基础语法(一)
Python 基础语法(一)Python的特点 1. 简单 Python是一种代表简单思想的语言。 2. 易学 Python有极其简单的语法。 3. 免费、开源 Python是FLOSS(自由/开放源码软件)之一。 4. 高层语言 使用Python编写程序时无需考虑如何管理程序使用的内存一类的底层细节。 5. 可移植性转载 2016-09-23 15:50:07 · 388 阅读 · 0 评论 -
Python 基础语法(二)
2. 元组 tuple和list十分相似,但是tuple是不可变的,即不能修改tuple,元组通过圆括号中用逗号分割的项定义;支持索引和切片操作;可以使用 in 查看一个元素是否在tuple中。空元组();只含有一个元素的元组("a",) #需要加个逗号 优点:tuple比list速度快;对不需要修改的数据进行‘写保护’,可以是代码更安全 tuple与list可转载 2016-09-23 16:00:41 · 354 阅读 · 0 评论 -
Python 基础语法(三)
七、面向对象编程 python支持面向对象编程;类和对象是面向对象编程的两个主要方面,类创建一个新的类型,对象是这个类的实例。 对象可以使用普通的属于对象的变量存储数据,属于对象或类的变量被称为域;对象也可以使用属于类的函数,这样的函数称为类的方法;域和方法可以合称为类的属性。 域有两种类型--属于实例的或属于类本身;它们分别被称为实例变量和类变量。 类使用关键字class转载 2016-09-23 16:01:40 · 323 阅读 · 0 评论 -
Python基础语法(四)
十、Python标准库 Python标准库是随Pthon附带安装的,包含了大量极其有用的模块。 1. sys模块 sys模块包含系统对应的功能sys.argv ---包含命令行参数,第一个参数是py的文件名sys.platform ---返回平台类型sys.exit([status]) ---退出程序,可选的status(范围:0-127):0表示正常退出,其他表示不正转载 2016-09-23 16:02:34 · 328 阅读 · 0 评论 -
dispy,asyncoro实现的分布式并行计算框架
dispy:asyncoro实现的分布式并行计算框架。一个对asyncoro很有说明性的案例。框架也是非常精简,只有4个组件dispy.py (client) provides two ways of creating "clusters": JobCluster when only one instance of dispy may run and SharedJobCl转载 2016-10-09 16:26:40 · 1364 阅读 · 0 评论 -
python矩阵转换为一维数组
python矩阵转换为一维数组>>>from compiler.ast import flatten>>>Xmatrix([[ 1, 17, 13, 221, 289, 169], [ 1, 17, 14, 238, 289, 196], [ 1, 17, 15, 255, 289, 225], [ 1, 18, 1转载 2016-10-11 15:57:57 · 5321 阅读 · 0 评论 -
python读取xml文件
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码。这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件。 什么是xml?xml即可扩展标记语言,它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。abc.xmlxml version="1转载 2016-09-27 11:13:31 · 335 阅读 · 0 评论 -
Python实现最小二乘法
1 最小二乘法概述自从开始做毕设以来,发现自己无时无刻不在接触最小二乘法。从求解线性透视图中的消失点,m元n次函数的拟合,包括后来学到的神经网络,其思想归根结底全都是最小二乘法。1-1 “多线→一点”视角与“多点→一线”视角最小二乘法非常简单,我把它分成两种视角描述:(1)已知多条近似交汇于同一个点的直线,想求解出一个近似交点:寻找到一个距离所有直线距离平方和最小的转载 2016-09-27 13:12:13 · 14625 阅读 · 2 评论 -
Python图像处理库PIL中快速傅里叶变换FFT的实现(一)
离散傅里叶变换(discrete Fouriertransform)傅里叶分析方法是信号分析的最基本方法,傅里叶变换是傅里叶分析的核心,通过它把信号从时间域变换到频率域,进而研究信号的频谱结构和变化规律。FFT是一种DFT的高效算法,称为快速傅立叶变换(fastFourier transform)。在数字图像处理中,FFT的使用非常普遍,是图像处理中最重要的算法之一。在此,我们对FFT转载 2016-11-03 15:16:15 · 2901 阅读 · 0 评论 -
模板方法模式(python)
模板方法模式:定义一个操作中的算法的骨架,而将一些步骤延迟到子类中。因此模板方法使得子类可以在不改变一个算法的结构的情况下重新定义该算法的某些特定变量。优点:把不变行为搬移到超类,去除子类中的重复代码。[python] view plain copy#encoding=utf-8 # #by panda #模板方原创 2016-10-13 09:20:22 · 492 阅读 · 0 评论 -
关于Python的主(main)函数的原理
主函数调用函数的小程序: 1 import sys 2 def Fuc(): 3 print 'hello' 4 5 if __name__ == '__main__': 6 if len(sys.argv) != 3: 7 print 'Usage: python input_name output_name' 8转载 2016-10-13 09:39:03 · 44901 阅读 · 1 评论 -
'module' object has no attribute 'MLPRegressor'问题解决(Python2.7)
'module' object has no attribute 'MLPRegressor' 如题,在做神经网络回归时,发现2.7下的sklearn包不是最新的0.18,而重新easy_install sklearn又不能更新,此时只需使用easy_install scikit-neuralnetwork 命令更新神经网络包,会同时自动更新sklearn版本为0.18原创 2016-10-13 11:20:09 · 2688 阅读 · 0 评论 -
DataFrame切片操作!
DataFrame数据框允许我们使用iloc方法来像操作array(数组)一样对DataFrame进行切片操作,其形式上,跟对数组进行切片是一样的,我们下面来演示一下一些典型的切片操作:先创建一个6行4列的DataFrame数据框使用iloc方法,提取第四行数据:我们可以看一下,这种方法得到的返回值是一个series数据返回4-5行,1-2列数据转载 2016-10-20 15:48:04 · 21973 阅读 · 1 评论 -
python网络编程之TCP通信实例和socketserver框架使用例子
1.TCP是一种面向连接的可靠地协议,在一方发送数据之前,必须在双方之间建立一个连接,建立的过程需要经过三次握手,通信完成后要拆除连接,需要经过四次握手,这是由TCP的半关闭造成的,一方在完成数据发送后要发送一个FIN来终止这个方向的连接,一个TCP连接在收到一个FIN后仍能发送数据,但应用程序很少这么做,下面是TCP连接建立和拆除的过程:2.python可以实现TCP服务器和客户端的转载 2016-11-04 10:36:17 · 467 阅读 · 0 评论 -
python sklearn 分类算法简单调用(借鉴)
scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法,我们修改数据加载函数,即可一键测试:数据为近红外测试猕猴桃软硬和时间差异的数据,可以作为分类软硬以及前后时间差的分类。[python] view plain copy # coding=gbk ''原创 2016-10-24 15:35:57 · 2443 阅读 · 0 评论 -
如何在python下安装xgboost
目前做二分类预测xgboost是效果最好的分类器,在kaggle等数据挖掘竞赛上的表现从未令人失望过。喜欢R的朋友可以直接在CRAN上下载xgboost包(install.pakages(‘xgboost’))。而Python用户都深受安装新包的痛楚,由于xgboost作者删除了github上的windows目录,导致无法安装最新xgboost版本。今天我就教大家如何在python下安装较早版但也转载 2016-10-24 17:14:36 · 1648 阅读 · 0 评论 -
xgboost: 速度快效果好的boosting模型
本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家,加拿大Simon Fraser University计算机学院研究生,研究兴趣为数据挖掘和生物信息学。主页:https://github.com/hetong007引言在数据分析的过程中,我们经常需要对数据建模并做预测。在众多的选择中,randomForest, gb转载 2016-10-24 17:34:53 · 1103 阅读 · 0 评论 -
Python内置函数map与reduce用法简介
map与reduce是两个十分常用的Python内置函数,它们与Hadoop中的MapReduce在某些方面有一定的相似之处。map函数:map(function, iterable, ...)对于可迭代对象(iterable)中的每一个元素调用处理函数(function),并以列表(list)形式返回每个元素的调用结果。如果传递了不止一个可迭代对象参数,函数从各个可迭代对象中取出相同转载 2016-10-14 10:17:20 · 610 阅读 · 0 评论 -
Python函数式编程——map()、reduce()
提起map和reduce想必大家并不陌生,Google公司2003年提出了一个名为MapReduce的编程模型[1],用于处理大规模海量数据,并在之后广泛的应用于Google的各项应用中,2006年Apache的Hadoop项目[2]正式将MapReduce纳入到项目中。好吧,闲话少说,今天要介绍的是Python函数式编程中的另外两个内建函数map()和reduce(),而不是Google转载 2016-10-14 15:28:57 · 297 阅读 · 0 评论 -
ROC和AUC在python中metrics上的实现
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http://bubblexc.com/y2011/148/)。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。# ROC曲线需要提前说明的是,我们这里只转载 2016-10-25 17:25:24 · 19889 阅读 · 1 评论 -
pyWavelets工具包的安装及使用
1 介绍本文档的内容参考了pyWavelet 0.1.6的User Guide和ver. 0.2.0的网上例子,主要是把我目前所需要的内容进行了翻译和整理得到的。 主要包含了1D、2D的分解与重构方法,和稳态小波分解重构等内容。 小波包的部分没有翻译,日后有需要的话可能增加。下载地址:http://www.pybytes.com/pywavelets 安装:原创 2016-09-29 17:01:14 · 33078 阅读 · 1 评论 -
主成分分析PCA简介及其python实现
主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量。 PCA的本质就是找一些投影方向,使得数据在这些投影方向上的方差最大,而且这些投影方向是相互正交的。这其实就是找新的正交基的过程,计算原始数据在这些正交基上投影的方差,方差越大,就说明在对应正交基上包含了更多的信息量。转载 2016-09-30 09:37:31 · 10978 阅读 · 1 评论 -
Python高级编程技巧
正文:本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的要求、对数据一致性的要求或是对索引的要求等,同时也可以将各种数据结构合适地结合在一起,从而生成具有逻辑性并易于理解的数据模型。Python的数据结构从句法上来看非常直观,并且提供了大量的可选操作。这篇指南尝试将大部分常用的数据结构知识放到一起,并且提供对其最佳用法翻译 2016-11-02 14:27:18 · 346 阅读 · 0 评论 -
使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标转载 2016-11-07 11:28:36 · 455 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
作者:jasonfreak 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《使用sklearn做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三个方法fit、transform和fit_transform,fit转载 2016-11-07 11:42:16 · 343 阅读 · 0 评论