秋秋小事

平凡,努力,成长,做最好的自己

描述统计学(二):汇总两个变量数据间关系

一 用表格方式汇总两个变量的数据 1 交叉分组表 常用于一个变量为分类型变量,一个变量为数量型变量 下面是由洛杉矶300家饭店组成的一个样本,其质量等级与参加数据的应用。 质量等级是一个分类变量,等级类别:好,很好,优秀 餐价是一个数量变量,变化的范围:10~49,被分为...

2019-06-19 18:27:22

阅读数 71

评论数 0

描述统计学(一):表格法和图形法

数据:分类型数据,数量型数据 一 汇总分类变量的数据 1 频数分布: 定义:频数分布是一种数据表格汇总,表示在几个互补重叠组别中的每一组项目个数 可以使用表格法,把每个类型样本在数据集中出现的次数汇总求和计算后,列入表格中 2 相对频数分布和百分数频数分布 定义...

2019-06-04 23:22:12

阅读数 60

评论数 0

一元线性回归(二) ----模型的评估与判定系数

判定系数:用于估计回归方程是否很好的拟合了样本的数据,判定系数为估计的回归方程提供了一个拟合优度的度量 1 误差平方和---SSE 对于样本中的第i次的观测值,应变量的观测值和应变量的预测值之间的离差为第i个残差,第i个残差表示用去估计的误差, 于是,对于第i次观测值,它的残差是-,这些残差...

2019-04-29 19:01:01

阅读数 407

评论数 0

一元线性回归(一)----简单线性回归与最小二乘法

一 理论与基础 自变量:样本的特征数值 因变量:需要预测的样本的预测值 1 简单线性回归(simple linear regression) y:样本的预测值,即回归模型中的应变量 x:样本的特征数值,即回归模型中的自变量 :回归模型中的误差项,误差项说明了包含在y里面,但不能被x...

2019-04-16 14:27:24

阅读数 342

评论数 0

逻辑回归(一) - - - 理论与sigmoid函数

# 关于逻辑回归的一些理论基础,以及sigmoid函数的可视化图 # 线性回归的一点理解: ''' h(s) = s_0 + s_1 * x_1 + s_2 * x_2 + ... + s_n * x_n 用过去的已知的数据,把X带入得到预测的Y_s,根据已知的Y,会找到合适的[s_0,...

2019-04-03 21:56:36

阅读数 30

评论数 0

k-临近 - - - 一个简单的封装类

import numpy as np # k-临近,K-Nearest Neighbor,也称knn # 原理:有n个样本的数据集,现给定一个新的样本s,s与n个样本进行比较,选取k个与s相近的样本,查看k个样本属于哪个类型, # 个数最多的那个类型为s的类型 ''' knn封装...

2019-04-03 21:52:55

阅读数 33

评论数 0

pyspark - - - 关于RDD(三):Actions

Actions, in contrast(对比) to transformations, execute(执行) the scheduled(计划) task on the dataset; once you have finished transforming your data you can...

2019-04-03 21:52:43

阅读数 33

评论数 0

pyspark - - - 关于RDD(二):Transformations

功能:Transformations shape your dataset。 1 map():用于逐行读取数据,方便提取数据中的一行 The method is applied to each element of the RDD: In the case of the data_from_f...

2019-04-03 21:52:33

阅读数 24

评论数 0

Pyspark --- 关于RDD(一):Create

1 RDD的内部执行原理(Internal workings of an RDD) 1>RDD的执行是并行的:RDDs operate in parallel(平行的),Each transformation is executed(执行) in parallel for enor...

2019-04-03 21:52:15

阅读数 24

评论数 0

Pyspark --- Spark2.x architecture

1 SparkSession The SparkSession is now the entry point for reading data, working with metadata(元数据), configuring(配置)the session, and managing the cl...

2019-04-03 21:52:04

阅读数 82

评论数 0

sklearn.utils.class_weight 样本均衡

当我们的数据,有多个类别,每个类别的数据量有很大差距时,这是我们需要对每个类别的样本做一次均衡,这样会让每个类别的特征都在一定程度上被模型学习,下面给出一个简单的小例子,如下: from sklearn.utils.class_weight import compute_class_weigh...

2018-12-13 14:07:50

阅读数 385

评论数 0

ios代码混淆小工具

一  绪言         写在前面的话:之前做了五年ios开发,现在转了开发方向(数据科学/大数据),今天帮以前ios开发小组的同学,写了一个ios代码混淆小工具,下面介绍下。         这种方式不是最佳方案,更好的方案是confuse.h里写入一段脚本就可以了,给下链接好了,传送门1...

2018-11-12 17:55:26

阅读数 714

评论数 1

箱线图

箱须:展示整个数据集合的数据范围 箱体和箱须主要用于表现一个或多个数据集合中数据的变化,容易对数据进行对比,容易理解 箱线图中展示的5种数据:最小值,中值,第三四分位数,最大值 为了说明一下上述的数据项,在下面的代码中用相同的数据集,来绘制箱线图和直方图 首先给出一张画好的可视化图 代...

2018-11-08 18:33:37

阅读数 592

评论数 0

基本类型图的绘制与原理

首先,看一张画出来的最终显示结果: 代码如下: import numpy as np import matplotlib.pylab as plt class Draw(object): def __init__(self): return def...

2018-11-08 18:03:01

阅读数 61

评论数 0

数据可视化中的数据平滑

import numpy as np import matplotlib.pylab as plt ''' 其它的一些知识点: raise:当程序发生错误,python将自动引发异常,也可以通过raise显示的引发异常 一旦执行了raise语句,raise语句后面的语句将不能执行 ''' d...

2018-11-08 17:16:22

阅读数 45

评论数 0

Python数据可视化 - - - 柱状图(一)

import pylab import random import matplotlib import matplotlib.pyplot as plt def Step1(): # 柱状图:pylab.hist() SAMPLE_SIZE = 10000 # 100的...

2018-11-07 10:30:39

阅读数 1950

评论数 0

数据的探索 - - - 汇总统计

1 汇总统计:它是量化的,用单个数或数的小集合捕获很大的值级的各种特征。 2 给定一个无序的、分类的值的集合     频数:反应了每个数值出现的频率     众数:频数最大的数值,它在连续的数 据集中是没有意义的,通常使用它做缺失值补全。 3 百分位数:对于有序的数据,考虑值集的百分位数很...

2018-10-22 09:35:14

阅读数 52

评论数 0

两个变量的相关性- - - 协方差与皮尔逊基相关系数

应用场景:在实际应用中,我们常常会想了解两个变量之间的关系 这里举一个简单的例子:一个商店的经理想确定,周末电视广告播放的次数与下周商店销售额之间的关系 我们使用:协方差和相关系数,作为衡量两个变量关系的方法 一 协方差的一些解释: 在坐标轴中,使用x_u、y_u画两条直线,会使数据分布在...

2018-10-18 11:09:25

阅读数 628

评论数 0

假设检验的理论

一   写在前面的一些基础知识       在数理统计中,会经常看到随机变量的概念。       随机变量又分为:离散随机变量,连续随机变量。       举个简单的例子:一个停车场里停靠的车辆数量,属于离散随机变量,因为我们可以准确的说出数值来描述结果。一天中的每个小时里,停车场出入的车辆...

2018-09-28 17:10:55

阅读数 598

评论数 0

假设检验---p临界值法

应用场景:美国联邦贸易委员会(FTC)定期设计统计调查,用以检验制造商的说明。例如:大号听装Hilltop咖啡的标签上标明装有3磅咖啡,FTC知道 HillTop的生产线不可能精确的在每罐中放入3磅咖啡,甚至无法保证所有听装咖啡重量的总体均值为3磅/听。当然,只要听装总体重量的均值至少为3磅/听...

2018-09-28 15:16:28

阅读数 631

评论数 0

提示
确定要删除当前文章?
取消 删除