自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 概率论中常见分布总结以及python的scipy库使用:两点分布、二项分布、几何分布、泊松分布、均匀分布、指数分布、正态分布

https://www.cnblogs.com/pinking/p/7898313.html概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。离散概率分布也称为概率质量函数(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项分布(binomial distribution)、泊松分布(Poisson distribution)和几何分布(geometric distribut

2020-06-04 11:50:49 3343 1

原创 Python -装饰器

装饰器是使用函数作为参数的函数,返回的也是函数,但是没有(),一旦加了(),函数就会被执行。等待需要使用的时候再添加()。https://www.runoob.com/w3cnote/python-func-decorators.html

2020-06-03 17:19:43 167

原创 CPython GIL 全局解释器锁

https://www.jianshu.com/p/756c505ab828Python的GIL是什么鬼,多线程性能究竟如何前言:博主在刚接触Python的时候时常听到GIL这个词,并且发现这个词经常和Python无法高效的实现多线程划上等号。本着不光要知其然,还要知其所以然的研究态度,博主搜集了各方面的资料,花了一周内几个小时的闲暇时间深入理解了下GIL,并归纳成此文,也希望读者能通过次本文更好且客观的理解GIL。GIL是什么首先需要明确的一点是GIL并不是Python的特性,它是在实现Pytho

2020-06-03 15:41:21 206

原创 python中模块,包,库的概念

(https://www.cnblogs.com/mlgjb/p/7875494.html)模块:就是.py文件,里面定义了一些函数和变量,需要的时候就可以导入这些模块。包:在模块之上的概念,为了方便管理而将文件进行打包。包目录下第一个文件便是 init.py,然后是一些模块文件和子目录,假如子目录中也有 init.py,那么它就是这个包的子包了。常见的包结构:package_a├── init.py├── module_a1.py└── module_a2.py库:具有相关功能模块的集合。

2020-06-03 15:39:17 1075

原创 Python常用模块 - paramiko模块

paramiko是一个用于做远程控制的模块,使用该模块可以对远程服务器进行命令或文件操作,值得一说的是,fabric和ansible内部的远程管理就是使用的paramiko来现实。1、下载安装pycrypto,由于 paramiko 模块内部依赖pycrypto,所以先下载安装pycryptopip3 install pycryptopip3 install paramiko2、模块使用#!/usr/bin/env python#coding:utf-8import paramiko

2020-06-02 14:23:52 471

原创 Python常用模块 - request模块

request模块是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。1、安装模块pip3 install requests2、使用模块# 1、无参数实例 import requests ret = requests.get('https://github.com/timeline.js

2020-06-02 14:23:41 312

原创 Python常用模块 - shutil模块

import shutilcopy()功能:复制文件格式:shutil.copy('来源文件','目标地址')返回值:复制之后的路径copy2()功能:复制文件,保留元数据格式:shutil.copy2('来源文件','目标地址')返回值:复制之后的路径copyfileobj()将一个文件的内容拷贝的另外一个文件当中格式:shutil.copyfileobj(open(来源文件,'r'),open('目标文件','w'))返回值:无copyfile()功能:将一个文件的内容

2020-06-01 17:13:38 144

原创 Python常用模块 - random 模块

random.randomrandom.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0random.uniformrandom.uniform(a, b),用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限。如果a > b,则生成的随机数n: a <= n <= b。如果 a <b, 则 b <= n <= a复制代码 代码如下:print random.uniform(10, 20)print

2020-06-01 17:12:52 130

原创 Python常用模块 - configparser 模块

configparser 是 Pyhton 标准库中用来解析配置文件的模块,并且内置方法和字典非常接近。Python2.x 中名为 ConfigParser,3.x 已更名小写,并加入了一些新功能。配置文件的格式如下:[DEFAULT]ServerAliveInterval = 45Compression = yesCompressionLevel = 9ForwardX11 = yes[bitbucket.org]User = Tom[topsecret.com]Port: 500

2020-06-01 17:12:15 321

原创 Python常用模块 - subprocess模块

subprocess是Python 2.4中新增的一个模块,它允许你生成新的进程,连接到它们的 input/output/error 管道,并获取它们的返回(状态)码。这个模块的目的在于替换几个旧的模块和方法,如:os.systemos.spawn*1. subprocess模块中的常用函数函数 描述subprocess.run() Python 3.5中新增的函数。执行指定的命令,等待命令执行完成后返回一个包含执行结果的CompletedProcess类的实例。subprocess.call

2020-06-01 17:10:49 968

原创 Python常用模块 - logging模块

logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点:可以通过设置不同的日志等级,在release版本中只输出重要信息,而不必显示大量的调试信息;print将所有信息都输出到标准输出中,严重影响开发者从标准输出中查看其它数据;logging则可以由开发者决定将信息输出到什么地方,以及怎么输出;1 logging模块使用1.1 基本使用配置logging基本的设置,然后在控制台输出日志,import

2020-06-01 17:05:13 327

原创 Python常用模块 - hashlib加密

hashlib主要提供字符加密功能,将md5和sha模块整合到了一起,支持md5,sha1, sha224, sha256, sha384, sha512等算法具体应用#!/usr/bin/env python# -*- coding: UTF-8 -*-#pyversion:python3.5#owner:fuzjimport hashlib# ######## md5 ########string = "beyongjie"md5 = hashlib.md5()md5.up

2020-06-01 17:01:32 214

原创 Python常用模块-Datetime模块

datatime模块重新封装了time模块,提供更多接口,提供的类有:date,time,datetime,timedelta,tzinfo。1、date类datetime.date(year, month, day)静态方法和字段date.max、date.min:date对象所能表示的最大、最小日期;date.resolution:date对象表示日期的最小单位。这里是天。date.today():返回一个表示当前本地日期的date对象;date.fromtimestamp(timesta

2020-06-01 16:59:38 121

原创 Python常用模块 - Time模块

time模块中时间表现的格式主要有三种:  a、timestamp时间戳,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量  b、struct_time时间元组,共有九个元素组。  c、format time 格式化时间,已格式化的结构使时间更具可读性。包括自定义格式和固定格式。2、主要time生成方法和time格式转换方法实例:#! /usr/bin/env python# -*- coding:utf-8 -*-# __author__ = "TKQ".

2020-06-01 16:52:30 156

原创 Python 常用模块 -sys模块

sys.argv 命令行参数List,第一个元素是程序本身路径sys.modules.keys() 返回所有已经导入的模块列表sys.exc_info() 获取当前正在处理的异常类,exc_type、exc_value、exc_traceback当前处理的异常详细信息sys.exit(n) 退出程序,正常退出时exit(0)sys.hexversion 获取Python解释程序的版本值,16进制格式如:0x020403F0sys.version 获取Python解释程序的版本信息sy

2020-06-01 16:49:26 146

原创 Python 常用模块 - OS模块

#os模块就是对操作系统进行操作,使用该模块必须先导入模块:import os#getcwd() 获取当前工作目录(当前工作目录默认都是当前文件所在的文件夹)result = os.getcwd()print(result)#chdir()改变当前工作目录os.chdir('/home/sy')result = os.getcwd()print(result)open('02.txt','w')#操作时如果书写完整的路径则不需要考虑默认工作目录的问题,按照实际书写路径操作ope

2020-06-01 16:48:39 173

原创 python函数中的位置参数、默认参数、关键字参数、可变参数区别

https://www.cnblogs.com/VseYoung/p/python_def.html

2020-05-29 11:57:35 226

原创 颜色格式串

格式: print("\033[字背景颜色;字体颜色m字符串\033[0m")例如:print("\033[41;36m something here \033[0m")其中41的位置代表底色, 36的位置是代表字的颜色那些ascii code 是对颜色调用的始末.\033[ ; m …… \033[0m字背景颜色范围:40----4940:黑41:深红42:绿43:黄色44:蓝色45:紫色46:深绿47:白色字颜色:30-----------3930:黑31:红32:绿

2020-05-28 16:19:13 280

原创 Python 语言参考-词法分析

https://docs.python.org/zh-cn/3/reference/lexical_analysis.htmlPython 会将读取的程序文本转为 Unicode 码点;源文件的文本编码可由编码声明指定,默认为 UTF-8Support for the unicode legacy literal (u’value’) was reintroduced to simplify the maintenance of dual Python 2.x and 3.x co

2020-05-27 09:34:41 332

原创 Presto官方文档学习

https://prestodb.jd.com/docs/current/installation/deployment.htmlhttp://docs.oracle.com/javase/7/docs/api/java/text/SimpleDateFormat.htmljson函数的计数是从0开始h...

2020-05-25 16:32:44 3270 1

原创 Q&A - Presto

1.1.1. Q: 读取array的时候,index为0的时候为啥读取不出来,例如array[0] ?因为Presto中数组的下标是从1开始1.1.2. Q: 如何直接比较timestamp字段?如果直接写select * from acc_tt_repair_order_1h where start_time > ‘2020-01-01 00:00’会报错Presto中需要按如下写法select * from acc_tt_repair_order_1h where start_

2020-05-25 16:31:58 223

原创 count(1)、count(*)与count(列名)的执行区别

https://blog.csdn.net/haijiege/article/details/85006780执行效果:count(1) and count(*)当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count()用时多了!从执行计划来看,count(1)和count()的效果是一样的。 但是在表做过分析之后,count(1)会比count(*)的用时少些(1w以内数据量),不过差不了多少。如果count(1)是聚索引,id,那肯定是count(1)快。但是差的很小

2020-05-25 13:49:37 156

原创 Shell学习——常用命令

vi filename.sh直接进入Vim,按i进入输入模式,按:wq保存文件退出

2020-01-19 22:47:31 118

原创 Linux学习——菜鸟网站

https://www.runoob.com/linux/linux-install.html通常服务器使用 LAMP(Linux + Apache + MySQL + PHP)或 LNMP(Linux + Nginx+ MySQL + PHP)组合。

2020-01-15 20:08:23 217

原创 Spark ml 官方文档 - ML Pipelines

Transformer: A Transformer is an abstraction that includes feature transformers and learned models. Technically, a Transformer implements a method transform(), which converts one DataFrame into anothe...

2019-12-27 15:51:23 548

原创 Spark ml 官方文档 - Basic Statistics

Basic StatisticsCorrelationfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.stat import Correlationdata = [(Vectors.sparse(4, [(0, 1.0), (3, -2.0)]),), (Vectors.dense([4.0, 5.0, 0.0,...

2019-12-27 11:46:05 507

原创 统计学基础

1、方差variance/deviation Var, D(X) , 总体方差,样本方差方差是实际值与期望值之差平方的平均值,而标准差是方差算术平方根。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。σ^2为总体方差,X为变量,µ为总体均值,N为总体例数。实际工作中,总体均数难以得到时,应用样...

2019-12-26 14:09:36 674

原创 pyspark编程基础

python提交:cmd --> python py-file-path(no space in path directory)spark提交: cmd --> spark-submit py-file-path(no space in path directory)修改日志设置以减少显示提示信息,只显示结果和错误信息:...

2019-12-26 10:53:00 672

原创 Pandas Percentile计算方法

计算方法与举例为了更一般化,在计算的过程中,我们考虑p分位。当p=0.25 0.5 0.75 时,就是在计算四分位数。首先确定p分位数的位置(有两种方法):方法1 pos = (n+1)*p方法2 pos = 1+(n-1)*ppandas 中使用的是方法2确定的。计算df = pd.DataFrame(np.array([[1, 1], [2, 10], [3, 100], [4...

2019-12-24 15:22:27 6966 1

原创 Hadoop以及spark安装on windows

厦大Hadoop安装(Linux):http://dblab.xmu.edu.cn/blog/install-hadoop/Java安装路径不能包含空格!!!JAVA配置环境变量使用Windows的软连接:在Windows的命令终端(cmd)中,使用命令:创建软连接:mklink /J C:\myJava “C:\Program Files\Java\jdk1.8.0_221”...

2019-12-23 20:43:48 179

原创 Windows10、7系统CMD常用命令和快捷键大全(建议收藏!)

Windows10、7系统CMD常用命令和快捷键大全:https://www.cnblogs.com/fusheng11711/p/10605269.html

2019-12-20 16:42:57 227

原创 sum over partition by 的用法

sum over partition by 的用法: https://blog.csdn.net/zhuiqiuuuu/article/details/79088709count(*) over(partition by…的用法记录:https://blog.csdn.net/sinat_19671783/article/details/73925833...

2019-12-20 14:02:16 500

原创 Pyspark修改提示信息显示

from pyspark import SparkContext,SparkConfconf = SparkConf().setMaster('local[4]').setAppName('My App')sc = SparkContext(conf = conf)logger = sc._jvm.org.apache.log4jlogger.LogManager.getLogger(...

2019-12-18 14:27:27 436

原创 Spark 官方文档——Configuration配置

官方文档:http://spark.apache.org/docs/latest/configuration.htmlConfiguration配置:https://www.cnblogs.com/bigbigtree/p/5685298.htmlhttps://www.cnblogs.com/bigbigtree/category/850078.html

2019-12-14 13:34:19 364

原创 Pandas matplotlib 画图无法显示中文字体的问题

参考:https://blog.csdn.net/lvshu_yuan/article/details/80413005

2019-11-19 15:48:22 247

原创 时间格式大小写

SQLPython

2019-11-01 22:29:11 731

原创 Spark笔记一:简介

http://dblab.xmu.edu.cn/blog/1711-2/4. RDD之间的依赖关系RDD中不同的操作会使得不同RDD中的分区会产生不同的依赖。RDD中的依赖关系分为窄依赖(Narrow Dependency)与宽依赖(Wide Dependency),图9-10展示了两种依赖之间的区别。总体而言,如果父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖,否...

2019-10-24 22:05:34 370

原创 NumPy Matplotlib.pyplot学习

https://www.runoob.com/w3cnote/matplotlib-tutorial.htmlhttps://www.jianshu.com/p/da385a35f68dMatplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython。如果这...

2019-10-23 22:40:30 254

原创 pandas 基本使用方法

https://www.pypandas.cn/docs/getting_started/basics.htmlPandas 对象(Index, Series, DataFrame)相当于数组的容器,用于存储数据,并执行计算。大部分类型的底层数组都是 numpy.ndarray。获取 Index 或 Series 里的数据,请用 .array 属性。Series 与 Index 的类型...

2019-10-23 14:53:29 852

原创 Pandas快速教程

http://www.itongji.cn/detail?type=99991314https://www.yiibai.com/pandas/python_pandas_data_structures.html

2019-10-22 12:00:57 252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除