自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

秋秋小事

平凡,努力,成长,做最好的自己

原创 描述统计学(二):汇总两个变量数据间关系

一 用表格方式汇总两个变量的数据1 交叉分组表 常用于一个变量为分类型变量,一个变量为数量型变量 下面是由洛杉矶300家饭店组成的一个样本,其质量等级与参加数据的应用。 质量等级是一个分类变量,等级类别:好,很好,优秀 餐价是一个数量变量,变化的范围:10~49,被分为四个组:10~19, 20~29, 30~39, 40~49 绘制的交叉...

2019-06-19 18:27:22 2323

原创 描述统计学(一):表格法和图形法

数据:分类型数据,数量型数据一 汇总分类变量的数据1 频数分布: 定义:频数分布是一种数据表格汇总,表示在几个互补重叠组别中的每一组项目个数 可以使用表格法,把每个类型样本在数据集中出现的次数汇总求和计算后,列入表格中2 相对频数分布和百分数频数分布 定义:组的相对频数 = 组的频数 / n ...

2019-06-04 23:22:12 557

原创 一元线性回归(二) ----模型的评估与判定系数

判定系数:用于估计回归方程是否很好的拟合了样本的数据,判定系数为估计的回归方程提供了一个拟合优度的度量1 误差平方和---SSE对于样本中的第i次的观测值,应变量的观测值和应变量的预测值之间的离差为第i个残差,第i个残差表示用去估计的误差,于是,对于第i次观测值,它的残差是-,这些残差或误差的平方和是一个用最小二乘来极小化的量。这个量就是误差平方和,记作SSE简单总结为:实际...

2019-04-29 19:01:01 3392

原创 一元线性回归(一)----简单线性回归与最小二乘法

一 理论与基础自变量:样本的特征数值因变量:需要预测的样本的预测值1 简单线性回归(simple linear regression)y:样本的预测值,即回归模型中的应变量x:样本的特征数值,即回归模型中的自变量:回归模型中的误差项,误差项说明了包含在y里面,但不能被x与y之间线性关系解释的变异性2 线性回归方程,可以看到它是一条直线:回归直线y轴的截...

2019-04-16 14:27:24 12866 2

原创 逻辑回归(一) - - - 理论与sigmoid函数

# 关于逻辑回归的一些理论基础,以及sigmoid函数的可视化图# 线性回归的一点理解:''' h(s) = s_0 + s_1 * x_1 + s_2 * x_2 + ... + s_n * x_n 用过去的已知的数据,把X带入得到预测的Y_s,根据已知的Y,会找到合适的[s_0, s_1, _s2, ... , s_n] 把要预测的数据X_new带入到h(s),若X_new...

2019-04-03 21:56:36 194

原创 k-临近 - - - 一个简单的封装类

import numpy as np# k-临近,K-Nearest Neighbor,也称knn# 原理:有n个样本的数据集,现给定一个新的样本s,s与n个样本进行比较,选取k个与s相近的样本,查看k个样本属于哪个类型,# 个数最多的那个类型为s的类型''' knn封装类 '''class KNN(object): def __init__(self, k...

2019-04-03 21:52:55 75

原创 sklearn.utils.class_weight 样本均衡

当我们的数据,有多个类别,每个类别的数据量有很大差距时,这是我们需要对每个类别的样本做一次均衡,这样会让每个类别的特征都在一定程度上被模型学习,下面给出一个简单的小例子,如下:from sklearn.utils.class_weight import compute_class_weightimport numpy as npdef class_balance(): cla...

2018-12-13 14:07:50 1762

原创 ios代码混淆小工具

一  绪言        写在前面的话:之前做了五年ios开发,现在转了开发方向(数据科学/大数据),今天帮以前ios开发小组的同学,写了一个ios代码混淆小工具,下面介绍下。        这种方式不是最佳方案,更好的方案是confuse.h里写入一段脚本就可以了,给下链接好了,传送门1、传送门2       这里提供一个获取工程中所有属性名、方法名、文件名的工具,有排重功能。二...

2018-11-12 17:55:26 1762 2

原创 箱线图

箱须:展示整个数据集合的数据范围箱体和箱须主要用于表现一个或多个数据集合中数据的变化,容易对数据进行对比,容易理解箱线图中展示的5种数据:最小值,中值,第三四分位数,最大值为了说明一下上述的数据项,在下面的代码中用相同的数据集,来绘制箱线图和直方图首先给出一张画好的可视化图代码如下:import numpy as npimport matplotlib.pylab a...

2018-11-08 18:33:37 1111

原创 基本类型图的绘制与原理

首先,看一张画出来的最终显示结果:代码如下:import numpy as npimport matplotlib.pylab as pltclass Draw(object): def __init__(self): return def Siping(self): x = [1, 2, 3, 4] y ...

2018-11-08 18:03:01 112

原创 数据可视化中的数据平滑

import numpy as npimport matplotlib.pylab as plt'''其它的一些知识点:raise:当程序发生错误,python将自动引发异常,也可以通过raise显示的引发异常一旦执行了raise语句,raise语句后面的语句将不能执行'''def moving_average(interval, windowsize): windo...

2018-11-08 17:16:22 232

原创 Python数据可视化 - - - 柱状图(一)

import pylabimport randomimport matplotlibimport matplotlib.pyplot as pltdef Step1(): # 柱状图:pylab.hist() SAMPLE_SIZE = 10000 # 100的区间会看到数据有起伏波动,10000时会趋于平稳,因为10个数一组 random.seed()...

2018-11-07 10:30:39 4402 1

原创 数据的探索 - - - 汇总统计

1 汇总统计:它是量化的,用单个数或数的小集合捕获很大的值级的各种特征。2 给定一个无序的、分类的值的集合    频数:反应了每个数值出现的频率    众数:频数最大的数值,它在连续的数 据集中是没有意义的,通常使用它做缺失值补全。3 百分位数:对于有序的数据,考虑值集的百分位数很有意义。    第p个百分位数是一个x值,使得数据集    的p%的观测值小于x值4 位置的度...

2018-10-22 09:35:14 134

原创 两个变量的相关性- - - 协方差与皮尔逊基相关系数

应用场景:在实际应用中,我们常常会想了解两个变量之间的关系这里举一个简单的例子:一个商店的经理想确定,周末电视广告播放的次数与下周商店销售额之间的关系我们使用:协方差和相关系数,作为衡量两个变量关系的方法一 协方差的一些解释:在坐标轴中,使用x_u、y_u画两条直线,会使数据分布在四个象限当s_xy为正时,表示变量x、y是正的线性关系,即x增加,y增加当s_xy为负时,表示变量...

2018-10-18 11:09:25 2860

原创 假设检验的理论

一   写在前面的一些基础知识      在数理统计中,会经常看到随机变量的概念。      随机变量又分为:离散随机变量,连续随机变量。      举个简单的例子:一个停车场里停靠的车辆数量,属于离散随机变量,因为我们可以准确的说出数值来描述结果。一天中的每个小时里,停车场出入的车辆数目,因为这个变量是在不断变化的,不能很好的用一个确定的数值来描述这个问题,这个变量就是连续随机变量。...

2018-09-28 17:10:55 914

原创 假设检验---p临界值法

应用场景:美国联邦贸易委员会(FTC)定期设计统计调查,用以检验制造商的说明。例如:大号听装Hilltop咖啡的标签上标明装有3磅咖啡,FTC知道HillTop的生产线不可能精确的在每罐中放入3磅咖啡,甚至无法保证所有听装咖啡重量的总体均值为3磅/听。当然,只要听装总体重量的均值至少为3磅/听消费者的权益将得到保障假设检验-p临界值法:第一步,为检验提供原假设和备择假设:如果罐内装入咖...

2018-09-28 15:16:28 2179

原创 总体比率的区间估计

 应用场景:美国对900名高尔夫球员进行了一项全国性的调查,以便掌握女子高尔夫运动员如何看待她们在高尔夫球场所受到的待遇。调查显示有396名女子高尔夫运动球员对开球时间的合理性感到满意。 应用场景:美国对900名高尔夫球员进行了一项全国性的调查,以便掌握女子高尔夫运动员如何看待她们在高尔夫球场所收到的待遇。调查显示有396名女子# 高尔夫运动球员对开球时间的合理性感到满意。# 总体比率...

2018-09-20 15:28:11 2625

原创 python 读取excel文件的小工具

import numpy as npimport xlrdclass XSLToolBox(object): def __init__(self, path, name): self.path = path self.name = name return def LoadData(self, sheetIndex, n...

2018-09-12 14:12:52 276

原创 区间估计 --- 样本容量的求解

应用场景:对于美国汽车租赁已有的市场发现,租赁一辆中型汽车的租赁费用大约每天约55美元,假定该项研究的组织者想要进行一项新的调查,对在美国一辆中型汽车的租赁费用的总体均值进行估计。当新研究的设计中,当项目负责人估计每天租赁费用的总体均值时,设定的置信水平为95%,边际误差为2美元求:所需的样本容量的大小数据符合正态分布特征技术场景:E值是使用者能接受的边际误差,z 值可以直接由区间...

2018-09-05 17:31:53 1190

原创 t - 分布的区间估计

在只给出了n个样本数据的情况下,推测总体均值的区间估计应用场景:给出n个家庭信用卡债务的数据,来估计美国家庭信用卡债务的总体均值原理说明:对于任何数据集,设:均值为 x_mean, 则所有的 x_i - x_mean的平方和都等于 0, 因此(x_i - x_mean)中只有 n - 1 项是独立的,即:如果我们知道了n - 1个值,则由所有(x_i - x_mean)的值之和为 0...

2018-09-05 15:29:50 1006

原创 置信区间与置信水平

# 技术场景:在总体的标准差已知的情况下,使用边际误差与区间估计,预测总体的参数# 应用场景:现有过去1 ~ 12月的销售数据,并且每个月的销售数据的变动幅值不太大,现在有了100条当月销售数据,求取当月可能的销售额度# 注:这里的前提条件:1 ~ 12个月的销售额度波动不算太大,我们把过去12个月的销售额度相关参数的均值,作为当月总的销售额度相关参数的值,# 使用这些值,去做一次统计推...

2018-08-31 14:28:37 1209

原创 概率密度函数的求解

应用的场景:现有10000新员工入职,公司的hr想知道新员工的参训人数的比例,而由于某些原因,不能公开所有新员工的信息,现给出了2500个用户的数据,让你计算下新员工的参训人数的比例。这里我们使用概率密度函数,来解决这个问题,hr给了个限定标准,作为她可以接受的一个计算结果的预期值:如果计算的结果的概率,在总体点估计量:概率P的[-0.65, +0.65]区间内,就可以接受这个求得的结...

2018-08-30 14:54:15 6121

原创 层次聚类

import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom scipy.cluster.hierarchy import dendrogram, linkage, fclusterimport randomdef hierarchy_cluster(data, method='a...

2018-08-29 17:35:08 233

原创 Python - - - 数据可视化之pyecharts

from pyecharts import Barfrom pyecharts import Geoimport randomfrom pyecharts import Scatter3Dfrom pyecharts import Pagefrom pyecharts import Piedef HomeWorkSpace(): #Work1() # 坐标轴带文字的坐标...

2018-08-14 15:54:37 1033

原创 Python - - - 数据可视化之matplotlib

import matplotlib.pyplot as pltimport numpy as npdef BaseWorks(): # works1() # 从-1到1生成100个点 # works2() #三个点,(1,5),(2,7),(3,4)然后在坐标轴上连成的线 # works3() #两条线,且设置了x,y轴的轴标题 # works4()...

2018-08-14 15:52:20 239

原创 Python - - - Pandas基本使用

import pandas as pdimport numpy as npdef pandasWork1(): # DataFrame 初始化,与数据的获取 one = np.array(['name0', 'name1', 'name2', 'name3', 'name4', 'name5']) two = list([[1, 1, 1], [1, 0, 1], [0...

2018-08-14 15:48:47 69

原创 Python - - - numpy的矩阵计算

import numpy as npdef numpyWork1(): # 矩阵的求和运算 one = np.array([[1, 0, 1, 3, 4, 1], [2, 1, 4, 2, 3, 0], [3, 5, 4, 1, 3, 2], [2, 6, 3, ...

2018-08-14 15:42:51 169

原创 Python - - - numpy的矩阵用法

import numpy as npdef numpyWork1(): # 过滤多维数组,每行有空值的数据 two_data = np.array([['12', '13'], ['12', ''], ['15', '16'], [...

2018-08-14 15:40:49 173

原创 点估计与抽样分布

import numpy as np# 场景问题:一个公司中有2500个新员工,他们入职后3个月内有一部分人参加了公司的培训,现有数据为2500个员工的薪资,以及是否参加培训的状态,# 但因为公司的数据权限,不能给出所有2500个用户的数据,但可以给出50个员工的数据,现需要推断新员工的平均薪资,以及参加培训的比例# 知识点:# 有限总体的简单随机抽样:在上边的例子中,新员工的总体个...

2018-08-14 13:12:50 479

转载 mac os基本基本命令失效后的恢复

很杯具,今天更改STELLASDK和cocos2d-x的PATH环境变量设置,不知道哪里出了错,竟然所有的-bash基本命令都失败了。比如:-bash: ls :command not found 顿时心都凉了。想要找到.bash_profile文件也不是那么容易的。找了下苹果技术论坛的帖子,终于安心了: step1.在terminal里面输入:export...

2018-08-10 14:10:57 1045 4

原创 Linux环境 安装cx_oracle

使用python操作服务器,使用的库为cx_oracle,配置步骤如下:1  安装cx_oraclepip install cx_oracle2  来这里:https://oracle.github.io/odpi/doc/installation.html安装文件:instantclient在网址里,有linux环境的设置,这里提一点:安装的instantclient需要与or...

2018-07-19 16:07:22 1953

原创 AWS云服务器 sudo: effective uid is not 0, is sudo installed setuid root

在配置python开发环境时,因为安装sklearn包,改变了/usr/bin目录的权限,然后出现了这样一个错误:sudo: effective uid is not 0, is sudo installed setuid root提示切换到root用户去设置,但当时我没有root用户的密码,经过多番折腾无果,我打通了公司运维的电话:1 我申请root权限 ------ 然后被告知aw...

2018-07-17 13:33:38 2082

原创 Pandas - - - DataFrame 用法

import pandas as pdimport numpy as npdef pandasWork1(): # DataFrame 初始化,与数据的获取 one = np.array(['name0', 'name1', 'name2', 'name3', 'name4', 'name5']) two = list([[1, 1, 1], [1, 0, 1], [0...

2018-07-15 20:12:57 112

原创 Mac OS 安装cx_oracle库的环境配置

python 操作oracle数据库的库为cx_oracle,我的开发环境为MAC OS系统1 安装cx_oracle,使用:pip install cx_oracle,安装结束,import cx_oracle, 跑了段代码,嗯,悲剧了,提示找不到libclntsh.dylib这个文件,又仔细看了下,python的错误提示中,给出了一个帮助链接:   oracle官网啊,没注册过用户的童...

2018-07-15 20:09:34 1929

原创 Linux系统 Python3.0升级到python3.6

1  首先查看当前版本python --version2 查看当前的版本python路径which python 注: 一般Linux默认的版本设置都在/usr/bin目录下,而用户下载安装完的软件一般在/usr/local/bin/目录下3 下载与安装pythonwget https:python下载地址              ----下载自己想安装的python...

2018-07-12 17:57:20 730

原创 numpy - - - 矩阵的计算

import numpy as npdef numpyWork1(): # 矩阵的求和运算 one = np.array([[1, 0, 1, 3, 4, 1], [2, 1, 4, 2, 3, 0], [3, 5, 4, 1, 3, 2], [2, 6, 3, ...

2018-07-11 18:24:13 225

原创 numpy- - -矩阵的操作

import numpy as npdef numpyWork1(): # 过滤多维数组,每行有空值的数据 two_data = np.array([['12', '13'], ['12', ''], ['15', '16'], [...

2018-07-11 18:20:25 148

原创 MAC OS设置Python服务器开发环境(一)

这里首先说明下,我用的MAC,服务器为AWS,之前服务器上有python2.7,这里主要介绍下,MAC系统下更新服务器的Python版本,以及使用Pycharm怎么连接服务器。一  MAC系统下更新服务器的Python版本 下载:  wget https://www.python.org/ftp/python/3.0/Python-3.0.tar.bz2  解压:  tar -jxv...

2018-06-12 16:36:34 1108

原创 spark安装步骤

一 安装scala  1 解压下载的scala文件:  tar -zxvf scala-2.12.5.tgz  2 配置profile环境: sudo vi /etc/profile设置为本地自己scala的路径:export SCALA_HOME=/app/software/scala-2.12.5export PATH=$PATH:$SCAL...

2018-04-28 13:45:10 72

原创 概率图之隐马尔科夫模型- - -1(Demo)

一 概念     这里的例子出自 李航著的《统计学习方法》,有兴趣的同学可以去读一下。    一个简单的小试验:    有A,B,C,D,E五个盒子,每个盒子里有10个球,数据如下: 试验的步骤:   第一步:从五个盒子里任意取出一个盒子,这个概率为0.2   第二步:从这个盒子里取出一个球   设置约束:如果这一次取的盒子为A,那么下一次以0.4的概率取盒子C...

2018-04-28 11:19:19 379

提示
确定要删除当前文章?
取消 删除