自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 时间序列实践

目标是预测未来三期传统汽车的销量。数据背景:03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量~ps:传统汽车的销量会受到新能源汽车的影响噢~链接:https://pan.baidu.com/s/1mvbBtA6MybvBj6PTE1kNbA提取码:916t这周的作业不太会用Python做参考了一些...

2020-03-07 22:57:08 338

原创 方差分析实战

数据背景:有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试解决:1、每个地区间的销售量是否相同?2、不同月份的销售量是否相同?3、不同时间与地区的销售量是否相同?每个地区间的销售量是否相同H0:μA=μB=μC=μDH1:四个地区的销量均值不完全相等import pandas as pdfrom statsmodels.formula.ap...

2020-03-01 19:09:18 205

原创 时间序列分析

基本概念时间序列是同一现象在不同时间的相继观察值排列而成的序列。经济数据大多数以时间序列的形式给多。根据观察时间的不同,时间序列中的时间可以是年份,季度,月份或者其他形式。时间序列可以分为平稳序列和非平稳序列两大类。平稳序列平稳序列是基本上不存在趋势的序列。这类序列中的各观察值基本上在某个固定的水平上波动,虽然在不同时间段波动的程度不同,但并不存在某种规律,波动可以看成是随机的。非平稳序...

2020-03-01 11:53:48 4706

原创 回归分析实战

import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn import linear_model# 加载数据集data = pd.read_csv('C:\\Users\\x...

2020-02-16 21:49:29 188

原创 方差分析

基本概念方差分析听起来以为是检验方差的,但实际上是检验多个总体均值是否相等的统计方法,只是在检验的过程当中运用到了方差。方差分析本质上是研究分类型自变量对数值型因变量的影响。比如,变量之间有没有关系,关系的强度如何等等。因子、水平在方差分析中,所要检验的对象叫做因素或者因子,因素的不同表现称为水平或者处理,在每个因子水平下得到的样本数据称为观测值。比如要分析行业与行业之间的服务质量(以被投...

2020-02-12 17:31:11 2084

原创 假设检验实践

1、人体体温的总体均值是否为98.6华氏度?2、人体的温度是否服从正态分布?3、人体体温中存在的异常数据是哪些?4、男女体温是否存在明显差异?5、体温与心率间的相关性(强?弱?中等?)数据源:https://pan.baidu.com/s/1mcq3d1V9bqzNftcseLEqbQ1、import numpy as npfrom scipy import statsimpor...

2020-01-19 22:48:21 239

原创 回归分析

一元线性回归相关关系人们在实践中发现,变量之间的关系可以分为两类,一个是函数关系,另一个是相关关系。函数关系、是人们比较熟悉的、设有x和y两个变量,变量y随着x一起变化,并完全依赖于x,当x取某个数值,y根据函数关系取得对应的值,x叫做自变量,y叫做因变量。相关关系、在实际生活中,两个变量之间的关系往往不那么简单,变量之间就不存在完全确定的关系,由于影响一个变量的因素非常多,变量之间的关...

2020-01-19 17:18:05 1120

原创 假设检验

基本概念参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。参数估计讨论的是利用样本的统计量去估计总体参数,总体参数在估计前都是位未知的。而假设检验则是对总体参数的值提出一个假设,然后利用样本的信息去检验这个信息是否正确。原假设与备择假设原假设和备择假设是一个完备的事件组,而且在一项假设检验中,原假设和背着假设有且只有一个城里先确定备择假设H1...

2019-12-31 17:27:03 516

原创 python参数估计实战

介绍本次实战仅仅以总体均值的区间估计做为例子代码在这里插入代码import pandas as pdimport numpy as npfrom scipy import statsimport mathimport seaborn as snsfrom matplotlib import pyplot as pltplt.rcParams['font.sans-serif...

2019-12-26 17:43:08 261

原创 数据可视化之旅(六)提升可视化效果

从大方向来说数据可视化最终结果影响的因素可分为两类数据层面比例型分类数据,分类项建议保持在5~7个比例型分类数据的可视化方式有:饼图、圆环图、百分比堆叠柱状图、百分比堆叠面积图等,当类目较多时可以把top5或者top6、top7(自己看情况)进行展示,剩下的类目归为其他,精简分类突出重点。柱状图数据条过多时可以保留头尾数据,中间的可以省略或者折叠放大时再进行展示当数据差异较小,导致折线...

2019-12-24 17:11:07 219

原创 参数估计

参数估计我们在对某总体进行统计描述的时候,通常情况我们因为各种原因(比如总体数量太多,测量成本,时间等)无法对总体中每个个体都进行测量。我需要对总体进行抽样测量,利用样本的信息去估计总体的信息,参数估计就是用样本的统计量去估计总体的估计量,在参数估计中我们把样本的统计量叫做估计量。点估计点估计就是用样本的某个统计量直接做为总体参数的估计值,比如样本均值X拔做为总体均值μ的估计值,样本比例p...

2019-12-24 15:38:51 1132

原创 可视化之旅(五)常用图表对比

实践Q:序号 数据分析需求 图表选择1 想了解一下全部发货物品的单价的分布情况,每10元作为一个区间? 2 展示销售额TOP5的产品二级大类? 3 按月份展示商品的销售数量趋势? 4 展示不同年份的商品的销售数量,及其不同年份三种运输方式的数量占比?A:1234.14.2...

2019-12-15 23:00:54 158

原创 数据可视化之旅(四)区间型、关系型和地理型数据图表

区间型数据区间型数据一般可分为两类比例型数据 数据本身就是百分比的形式,一般是完成率,比如下载进度,工作量完成率等数值型数据 数据本身是具体的数值,但是会针对数据的进行阈值划分, 不同范围的数据对应不同的定性指标。比如人的血压,同样是高血压但是可能对应的危险程度不一样。条形进度条进度条在生活中非常常见,无论是单条还是重叠的条形图,绘制相对简单,通常我们计算出XX率之后,一般还会...

2019-12-08 22:52:00 1661

原创 抽样分布(六)

总体与个体在一个统计问题中,研究对象的全体叫做总体,构成总体的每个成员称为个体,总体就是一个分布,其数量指标就是服从该分布的随机变量。常用统计量统计量是样本的函数,它不依赖任何未知的参数。假设(X1,X2,X3,X4,…,Xn)是来自总体的容量为n的样本,f(X1,X2,X3,X4,…,Xn)是样本的函数,且样本函数中不含有任何未知的参数,那么f(X1,X2,X3,X4,…,Xn)就是一...

2019-12-08 09:57:23 1201

原创 概率分布实践

二项分布data_binom = binom.rvs(n=5,p=0.75, size=1000)ax = sn.distplot(data_binom, hist=False, kde=True,rug=True, color='blue', hist...

2019-12-01 16:13:02 161

原创 数据可视化之旅(三)对比型和分布型数据图表

对比型数据可视化要展现对比型数据之间的差异,通常是通过不同的标记和视觉通道展现出来的。高度差异/宽度差异:柱状图、条形图。面积差异:面积图、气泡图。字号差异:单词云图。形状差异:星状图、雷达图。柱状图、条形图面积图、气泡图单词云图星状图、雷达图分布型数据可视化直方图茎叶图箱线图概率密度图散点图、气泡图热力图地图...

2019-11-30 17:49:24 3436

原创 概率分布

基本个概念随机变量在说随机变量之前。先说一下什么叫试验和时间,试验就是在同一组条件下,对某事物或现象所进行的观察,把观察的结果叫做事件。随机事件。在同一组条件下,每次试验可能也不能出现的事件必然事件。在同一组条件下,每次试验一定出现的事件不可能事件。在同一组条件下,每次试验一定不出现的事件在实际问题中有的随机事件本身就是数量表示,有的结果却不行,比如掷骰子,试验结果有6个,可以记为1...

2019-11-27 09:56:01 388

原创 数据可视化之旅(二)图表的选择

在数据可视化的过程中,明确了数据之间的关系,我们就要选择相应的图表来进行展示。这里主要针对两类数据进行分析,一个时序数据,另外一个是比例型数据。时序数据离散时间单一柱状图适合场景适合单类别的离散时间的数据趋势展示,但是柱状图的条数不宜过多最好不要超过12个不适合场景数据条数过多导致柱状图过多显得臃肿,并不适用于连续时间数据并列柱状图并列柱状图的使用场景基本和单一柱状图一...

2019-11-24 23:53:51 586

原创 数据可视化之旅(一)数据可视化基本流程及基本原理

数据可视化是什么可视化过程明确主题现在是数据爆炸的时代,同样的数据不同主题的主题展现的方式是不一样的。首先我们要分析这次可视化的出发点和要达到什么样的效果也就是目标。目前遇到了什么问题、要展示什么信息、最后想得出什么结论、验证什么假说等等。一个看似很小的问题其实就可以作为一个主题,比如最近双11某城市不同城区的消费金额,双11包裹的配送时效等等。分析处理数据当我们明确主题之后,在面对数...

2019-11-21 17:24:46 2937

原创 描述性统计实践

本次实践的数据下载地址:https://pan.baidu.com/s/1lXAnyvSoti-U44MU2fubgw本次实践是在jupyter的集成环境下进行的。实践数据是个中等偏度数据分布,峰度也比3(正态分布的峰度)小很多分图形较为扁平分布图形...

2019-11-12 17:20:21 312

原创 描述性统计

利用图标展示数据,可以让我们对数据的特征有一个大概了解,但是要全年的把握数据的分布,还需要好到反映数据特征的特征值。数据的分布特征可以从三个角度进行描述。1、集中趋势(数据的聚集程度):众数、中位数、分位数、平均数(算术平均数、加权平均数、几何平均数)2、离散程度(数据偏离中心的程度):数值型数据(方差、标准差、极差、平均差)、顺序数据(四分位差)、 分类数据(异众比率)、相对离散程度(离散系...

2019-11-10 09:40:59 1504

原创 数据的图表展示

数据的预处理数据预处理是我们在拿到数据之后,真正使用之前的非常重要的一个环节。我们在对数据进行处理时往往非常注重方法论,对于数据本身问题的不重视导致最后的处理结果准确性较差,甚至根本无法使用。数据审核数据审核说白了就是检查数据是否存在问题,主要是检查完整性和准确性。检查完整性,即检查需数据的各项是否齐全存,准确性则是查看数据是否存在异常值,对于异常值我们要多注意一下,关注一下异常值产生生的原...

2019-11-03 20:49:29 802

原创 泰坦尼克号的秘密(数据集分布验证)

描述数据集:https://pan.baidu.com/s/1rvxlWe4LzlHx5td7zYGTTg 提取码: us2a 数据集中包含四列分别为【ID、年龄、价格、港口】Q1:按照港口分类,使用Python求出各类数据年龄和价格的统计量Q2:画出数据集中价格的分布图,验证数据服从哪种分布(卡方?正态?T分布?)Q3:按照港口分类,验证S港与Q港两个港口之间的平均价格之差是否服从...

2019-08-31 09:57:57 277

原创 一组关于温度、性别和心率的数据集分析

数据集简单描述数据集:http://jse.amstat.org/datasets/normtemp.dat.txt数据是来源于130位成年人,关注的特征为体温、性别和心率数据分析1人们的平均体温真的是98.6F吗?2体温的分布是否符合正态分布3在什么时候我们认为一个人的体温出现了异常4男性和女性的体温是否存在显著的差异5体温和心率之间存在关联吗...

2019-08-17 21:49:45 2332 1

原创 常用的数据分布(泊松分布,二项分布,伯努利分布,正态分布,均匀分布等)

基本概念随机变量随机变量这个是概率学中的一个基本概念,在实际问题中有的试验结果本身就是数量表示,有的结果却不行,比如掷骰子,试验结果有6个,可以记为1,2,3,4,5,6。但另如抛硬币正反面,结果看似跟数值毫无关系,我们一般会做一个对应的处理,引进一个变量,当硬币正面记为0,反面记为1.简单的说就是将试验结果数值化将结果用一个变量表示,这个变量就叫随机变量。连续随机变量与离散随机变量随机变...

2019-08-04 23:05:45 6549

原创 Pyhton数据分析基础

Pyhton数据分析基础Python基础pandas基础Series数据对象的生成data数据类型是listdata数据类型是ndarraydata数据类型是字典data数据类型是字典data类型是常量![在这里插入图片描述](https://img-blog.csdnimg.cn/20190728225206191.png?x-oss-process=image/watermark,type_Z...

2019-07-28 23:00:18 162

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除