Python
文章平均质量分 74
振裕
被误解的大数据
展开
-
numpy的神奇广播函数
numpy的神奇广播函数在使用pandas的时候,一般来说对两个DataFrame(简写df)的加减乘除,会自动索引对齐,很方便,DataFrame与Series之间的运算也会沿着指定的轴进行广播。最为人称道的广播形式大概就是apply和applymap这样的操作了,很方便,很强大。 但是也有不能满足需求的时候,比如一个DataFrame根据另一个DataFrame对应的元素进行自定义ufunc操原创 2016-05-15 19:54:35 · 5279 阅读 · 0 评论 -
python分布式计算dispy简单使用
dispy,是用asyncoro实现的分布式并行计算框架。框架也是非常精简,只有4个组件,在其源码文件夹下可以找到:dispy.py (client) provides two ways of creating “clusters”: JobCluster when only one instance of dispy may run and SharedJobCluster when multip原创 2016-12-28 16:28:46 · 5138 阅读 · 0 评论 -
scipy数值优化与参数估计
引言优化是一门大学问,这里不讲数学原理,我假设你还记得一点高数的知识,并且看得懂python代码。关于求解方程的参数,这个在数据挖掘或问题研究中经常碰到,比如下面的回归方程式,是挖掘算法中最简单最常用的了,那么怎么求解方程中的各个参数呢?当然,对于常见的挖掘算法,甚至是复杂的深度学习,在sklearn和tensorflow等工具已经很好解决怎么求解参数的问题,只需要调接口就好了。 那么我们再看下面原创 2017-04-11 10:07:38 · 20223 阅读 · 4 评论 -
pycharm远程开发python程序
在windows中写代码,然后在linux下测试执行,是很多人的最佳选择,毕竟,linux不是一般人能玩转的。 下面讲讲如果使用pycharm进行远程开发,实现在windows中写代码,在linux下执行。这里主要在虚拟机中测试,在真实的服务器也是一样的配置,如果有ssh权限或者ftp权限的话。原理原理很好理解,pycharm使用ftp将代码上传至linux,然后pycharm使用ssh连接lin原创 2017-08-26 10:12:22 · 2854 阅读 · 0 评论 -
python绘制动态模拟图
动图很多时候我们绘图不仅仅是绘制最终的统计结果图,而是想看看在不同参数不同时刻下的连续图形,这个在仿真模拟的时候相当有用。比如机器学习中,参数的变化导致的变化,比如我最近做的库存水平变化模拟等。如果我们绘制静态图像,只能看到某一时刻的直观图形,如果加入时间线,那么就能直观感受变量的变化过程。其实原理也挺简单的,就是创建一幅图,定义图形中曲线,散点,标注等各个对象,然后在不同时刻,更新这些对象的数据,原创 2017-10-25 10:19:47 · 54782 阅读 · 8 评论 -
py-charm延长试用期限
不敢说得太明显太仔细,反正你懂的。 有两种方法,一种是搭建本地授权服务器,另一种是直接替换核心文件,修改对应的注册码。先说第一种。 下载IntelliJIDEALicenseServer,然后找到对应的平台,比如我的是win10 x64的文件运行,看屏幕输出提示,复制授权服务器地址http://127.0.0.1:1017,粘贴到pycharm的注册地址即可。 亲测可用。再说下第二种。 比较原创 2017-09-02 11:10:34 · 15202 阅读 · 0 评论 -
从推公式到写代码--聊聊最小二乘法
本专辑内容的阅读对象是有一定的高数和线性代数基础,但是缺少编程训练的人。1. 前言在这一讲中,我们来聊聊最小二乘及最小二乘方法求解方程参数问题。希望通过这一讲,能让大家了解通用参数求解方法的最小二乘是怎么工作的,如果大家有python基础,也希望大家能掌握一般方程的参数求解方法,并能依样画葫芦,解决学习工作中的数学模型参数问题。如果你没有python基础也不用担心,我们后面会有python及pyth原创 2018-03-09 15:19:52 · 877 阅读 · 0 评论 -
python3操作hive
1. 前言目前python3连接hive的方法主要是使用cloudera开发的impyla包,但是要安装impyla也不是那么容易的事情,因为impyla要使用系统底层模块,所以就要先安装对应的模块,而不仅仅是安装impyla就可以了。如果是想hdfs-server就好了,一个http就能搞定。在过大网友的无私奉献,以及Google和Baidu的帮助下,终于解决了python3连接hive...原创 2018-03-06 11:44:17 · 3899 阅读 · 0 评论 -
python爬虫基础
1. 前言我不是专业爬虫工程师,只是业余爬点数据做做分析和挖掘工作,所以没有使用到复杂的反爬虫和线程池等技术,也没有用到beautifulSoup这样的神库。但是并不影响我轻松爬取网页数据。 这里简单记录下浏览器操作,源码读取,以及数据提取的方法,够用了。2. selenium操作chrome浏览器2.1. 安装chrome浏览器和浏览器驱动首先你需要安装chrome浏览...原创 2018-07-29 20:45:13 · 566 阅读 · 1 评论 -
python自动化单元测试
python自动化单元测试1. 前言2. 原理3. 单元测试的简单类型4. 一个简单的例子5. 函数文档格式要求6. 生成测试用例7. 参考1. 前言说实话,除了测试要求,我实在不知道写单元测试有什么意义,一个函数50行代码,有多种参数组合,为了测试这些条件,需要编写测试用例,写完的测试用例比需要测试的函数还长。也就是说,除了写函数,还要写测试用例,增加的工...原创 2018-08-21 09:02:31 · 881 阅读 · 1 评论 -
spark-python版本依赖与三方模块方案
spark-python版本依赖与三方模块方案1. 背景公司有统一的spark大数据集群,但spark用的python版本是python2.7,项目组这边都是用python3.5,甚至有些项目用的是python3.6,对某些第三方包,有些项目用到pandas0.18,有些是pandas0.23等。相信这个问题用python的同学都遇到过,就是python的版本管理和第三包版本管理问题,...原创 2018-08-31 14:51:41 · 6940 阅读 · 2 评论 -
Pycharm开发spark程序
Pycharm开发spark程序使用pycharm连接spark开发python程序。Pycharm本地开发spark程序1.安装Java安装Java8 64bit,安装目录是 C:\Java 配置环境变量JAVA_HOME : C:\Java\jdk8\binCLASSPATH : .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; (注意开原创 2016-12-26 12:14:59 · 4916 阅读 · 0 评论 -
python中常用的base64 md5 aes des crc32等的加密解密
python中常用的base64 md5 aes des crc32等的加密解密转自:http://www.cnblogs.com/darkpig/p/5676076.html1.base64Python内置的base64模块可以实现base64、base32、base16、base85、urlsafe_base64的编码解码,python 3.x通常输入输出都是二进制形式,2.x可以是字符串形式。转载 2017-01-20 15:37:27 · 7974 阅读 · 0 评论 -
python3发新浪微博
python3发新浪微博创建微博应用登陆http://open.weibo.com/apps创建微博应用,获取App Key和App Secret,填写OAuth2.0授权回调页,如果不知道是什么就写微博默认的https://api.weibo.com/oauth2/default.html在 应用信息–>高级信息 中,授权回调页和取消授权回调页都填一样的。 这个网上很多。获取微博的python接原创 2017-01-05 17:47:49 · 4167 阅读 · 5 评论 -
python通过配置文件共享全局变量
在使用Python编写的应用的过程中,有时会遇到多个文件之间传递同一个全局变量的情况,此时通过配置文件定义全局变量是一个比较好的选择。首先配置config.py模块,config需要设置get_xxx和set_xxx的方法提供对外的接口。 config.pyclass global_var: '''需要定义全局变量的放在这里,最好定义一个初始值''' name = 'my_name原创 2016-05-29 21:25:31 · 15009 阅读 · 0 评论 -
Python调用R语言
网络上经常看到有人问数据分析是学习Python好还是R语言好,还有一些争论Python好还是R好的文章。每次看到这样的文章我都会想到李舰和肖凯的《数据科学中的R语言》,书中一直强调,工具不分好坏,重要的是解决问题的思路,就算是简单的excel,也能应付数据分析中的大部分问题。再者Python和R本来就没有什么好对比的,一门是计算机工程语言,一门是统计语言,只有将两者结合起来,才能发挥更大的威力,不是原创 2016-05-22 18:47:55 · 20006 阅读 · 6 评论 -
Python访问Oracle及注意事项
Python访问Oracle这两天一直在捣鼓使用Python访问Oracle,主要是因为要将数据批量导入数据库。 说到批量导入首先想到的是Oracle的sqlloader工具了,不过这个要求安装有Oracle客户端,Oracle的客户端可是有一两个G呐,难道为了导数据就要安装这个庞然大物吗? 百度了一下Python连接Oracle方法,发现很多人都在用cx_oracle这个Python的模块,看原创 2016-04-28 13:06:45 · 4685 阅读 · 0 评论 -
python访问MySQL
python访问MySQL还是比较简单的,比访问oracle要简单得多。 但是一直以来大家习惯的MySQLdb对新版本的python支持不是那么友好,我在用python3.5的时候就没有找到对应的MySQLdb,感觉像是要被抛弃了似得。幸好还有PyMySQL,这是用python写的,而且用起来也很方便。import pymysqlconn = pymysql.connect(host='127.原创 2016-06-28 09:37:47 · 1449 阅读 · 0 评论 -
Python任务调度模块 – APScheduler
Python任务调度模块 – APSchedulerAPScheduler是一个Python定时任务框架,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务、并以daemon方式运行应用。在APScheduler中有四个组件: 触发器(trigger)包含调度逻辑,每一个作业有它自己的触发器,用于决定接下来哪一个作业会运行。除了他们自己初始配置意外,触发原创 2016-09-17 20:42:33 · 5290 阅读 · 0 评论 -
python数据库连接池
python-oracle数据库连接池使用连接池,可以避免每次请求都创建一个连接,直接从连接池获取连接,大大加快连接速度和效率。 python的数据库连接池主要是DBUtils,详细的介绍可以参考: http://www.tuicool.com/articles/U3ymUb7这里介绍cx_oracle模块自带的连接池,同时也给出DBUtils的连接池简单使用方法。# file: pyoracl原创 2016-08-30 11:23:01 · 5355 阅读 · 0 评论 -
在pandas中使用sql
在pandas中使用sql就像可以使用sqldf在R中使用sql一样,可以使用pandasql在pandas中使用sql操作DataFrame,对于熟悉数据库的人来说,更喜欢用sql做数据清洗整合吧。 DataFrame,是一个二维的表格,就和数据库表一样,所以用sql操作DataFrame也就水到渠成了。 pandasql使用 SQLite作为其操作数据库,使用的sql也遵循 SQLite代码原创 2016-05-15 20:58:47 · 10192 阅读 · 0 评论 -
sphinx自动化文档
sphinx自动化文档sphinx是python的御用自动化文档模块,通过提取代码中的文档注释(docstring)来生成代码文档,还是很方便的,你看到很多python官方教程,其实都是sphinx生成的,比如数据分析的pandas:http://pandas.pydata.org/pandas-docs/stable/ 废话不多说,下面开始。 需要注意的是,我使用的python3.5,sphi原创 2016-10-25 16:00:16 · 5901 阅读 · 0 评论 -
使用python发送qq消息
以前看到网上一些小程序,在处理完事物后会自动发送qq消息,但是一直搞不懂是说明原理。也在网上找过一些python登陆qq发送消息的文字,但是都太复杂了。今天偶然看到一篇文章,是用python调用win32的接口发送qq消息的,觉得不错,就先记录下来,日后肯定会用得上这些小工具。 发送qq消息要求已经登陆qq,而且qq的窗口是独立的,现在新版的qq一般都是将所有的聊天窗口聚合在一起,因此要设置将qq原创 2016-10-26 14:54:44 · 56395 阅读 · 8 评论 -
python中的多线程和多进程
python中的多线程和多进程如果使用multiprocessing模块是相当简单的,通过进程池或线程池来限定并发的数量。 创建多进程和多线程的语法是一样的,只需要将Pool替换为ThreadPool即可将多进程替换为多线程。from multiprocessing import Pool # 进程池from multiprocessing.dummy import Pool as Threa原创 2016-12-28 12:12:42 · 733 阅读 · 0 评论 -
修复python的Visual C++ 14环境错误
1.背景有些第三方python模块编译安装的时候需要依赖C/C++编译环境,如果电脑没有编译环境的话就会报error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-...原创 2018-10-12 09:11:57 · 4046 阅读 · 3 评论