统计学
小文的数据之旅
不想当码农的伪码农就是我啦!哈哈哈。。。知乎专栏:小文的数据之旅
展开
-
重温统计学---时间序列实践
背景:03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量~ps:传统汽车的销量会受到新能源汽车的影响。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport statsmodels.api as smf...原创 2020-03-08 11:58:45 · 420 阅读 · 0 评论 -
重温统计学--时间序列
时间序列包括两种类型,平稳序列与非平稳序列。平稳序列是指各观察值基本上在某个固定的水平上波动,波动是随机的。非平稳序列是指包含趋势、季节性或周期性的序列。趋势成分是否存在可以通过折线图初步判断,或者通过回归分析拟合一条趋势线,然后对回归系数进行显著性检验,如果显著,就可以得出线性趋势显著的结论。季节性至少需要两年的数据,通过将每一年的各个季度通过折线图描述出来。...原创 2020-03-02 10:43:48 · 607 阅读 · 0 评论 -
线性回归实战
import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics impo...原创 2020-02-09 21:57:53 · 1250 阅读 · 0 评论 -
重温统计学--假设验证
小文 | 公众号 小文的数据之旅上一期说到三大抽样分布的主要作用在于参数估计与假设验证,参数估计已经在重温统计学--参数估计介绍过了,今天我们来看看假设验证是什么,怎么用?假设检验其实很好理解,生活中的例子也很多,最常见的就是应用在法庭上,法官先假设嫌疑犯无罪,然后收集证据,如果有足够证据证明嫌疑犯有罪,则需要宣判嫌疑犯有罪。假设验证做的就是这么一回事,先不管其在统计学中的作用,更为重要的...原创 2020-01-05 22:17:26 · 746 阅读 · 0 评论 -
抽样分布实践
import pandas as pdimport numpy as npfrom scipy import statsimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinedata = pd.read_excel('./Desktop/data.xlsx')data.describe()o...原创 2019-12-22 13:03:27 · 184 阅读 · 1 评论 -
抽样分布
统计量:由样本构造一个函数,且此函数不依赖于任何未知参数,则称该函数为统计量,常用的统计量有样本均值、样本方差、样本变异系数。卡方分布:设随机变量X1,X2,…Xn相互独立,且Xi(1,2,…,n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的卡方分布。由上图可知,当自由度足够大时,卡方分布的概率密度曲线趋于对称,即卡方分布的极限分布是正态分布。T分布...原创 2019-12-09 16:01:34 · 1664 阅读 · 1 评论 -
python实现二项分布、泊松分布和正态分布
from scipy.stats import binom,poisson,normimport matplotlib as mplimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinempl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['ax...原创 2019-12-06 16:01:09 · 1954 阅读 · 0 评论 -
重温统计学--python实现概括性度量
#导入所需的包import pandas as pdimport numpy as npimport seaborn as snsfrom scipy import stats#读取数据,并用describe查看数据的分布情况data = pd.read_excel('./Desktop/实践一.xlsx')data.describe()out:datacount 699...原创 2019-11-13 23:12:25 · 219 阅读 · 0 评论