前言:
统计学的知识点与数据分析息息相关,所谓统计学就是关于认识客观现象总体数量特征和数量关系的科学,它的知识广泛适用于自然、社会、经济、科学技术各个领域的分析研究。
在统计学专业中,也会将数据分析师这一职位作为其工作中的对口专业,在统计学的专业学习过程中,也会有很多统计软件等相关工具的学习,比如SAS,SPSS,Python语言等等。
下面的知识主要对数据分析涉及较多的描述统计学的知识点做了一定的梳理和Python的相关应用。
一、关于描述统计学什么是描述统计学?
--就是用几个关键的数字来描述数据集的整体情况
现象:工资被平均了
什么是描述统计学?
--就是用几个关键的数字来描述数据集的整体情况
描述数据集常用的4个指标:
1.平均值
但是平均数不能代表整体的数据情况
缺点:对异常数值不敏感
2.中位数
--排序:按从小到大的顺序排列数据
--计算中间位置:
假设有N个数,
1)如果n是奇数,则中位数是位于中间的数值。
2)如果n是偶数,则中位数就是中间两个数的平均值。
3.四分位数
第一步:求中位数
第二步:求下四分位数,上四分位数
案例:分析某餐厅就餐人员距离
绘制箱线图,更加直观的理解四分位数
四分位数应用1:
不同类别数据的比较
应用2 :
识别出可能的异常值:
1)识别出可能的异常值
2)对异常值进行检查和处理
识别出可能异常值得方法:turkey‘s test 方法
4.标准差
衡量稳定性
波动大小(=离散程度=变异性)标准差---波动大小
案例: 股票波动大小
夏普比率=投资回报-无风险回报/投资组合的标准差
标准差的2个问题:
1)标准差的单位:跟数据单位保持一致
2)标准差是大一点好呢?还是小一点好呢?:视数据所处环境而定
5.标准分(z分数)
标准分表示【某个数值】距离平均值多少个标准差
标准分的意义:
经验法则
对于钟形分布的数据:
约68%的数据项与平均数的距离在1个标准差之内
约95%的数据项与平均数的距离在2个标准差之内
几乎所有的数据项与平均数的距离在3个标准差之内
案例:质量管理
这个标准差,通常用每百万次采样数的缺陷率来衡量。
1个标准差,就是每百万件抽样中,有69万个不合格,相当于一本书每页有170个错别字。
3个标准差就是每百万件抽样中,有6.7万个不合格,相当于一本书每页有1.5个错字。
6个标准差就是每百万件抽样中,有3.4个不合格,相当于整个小型图书馆的所有藏书中,只有1个错别字。
。。。。。数据分析相关的统计概率知识点总结未完待续
练习:股票数据分析
1.导入包
import pandas as pd
from pandas_datareader import data
2.用字典定义6家公司
gafataDict={'谷歌':'GOOG','亚马逊':'AMZN','Facebook':'FB','苹果':'AAPL','阿里巴巴':'BABA','迪士尼':'DIS'}
3.获取股票数据
start_date='2017-01-01'
end_date='2018-01-01'
babaDf=data.get_data_yahoo(gafataDict['阿里巴巴'],start_date,end_date)
4.查看数据
'''
每日股票价位信息
Open:开盘价
High:最高加
Low:最低价
Close:收盘价
下面我们主要关注每日的收盘价
'''
#查看前5行数据
babaDf.head()
babaDf.dtypes
5.查看描述统计信息
babaDf.describe()
6.股票涨跌幅
'''
定义函数
函数功能:计算股票涨跌幅=(现在股价-买入价格)/买入价格
输入参数:column是收盘价这一列的数据
返回数据:涨跌幅
'''
def change(column):
buyprice=column[0]
curprice=column[251-1]
pricechange=(curprice-buyprice)/buyprice
if(pricechange>0):
print('股票累计上涨',pricechange)
elif(pricechange<0):
print('股票累计下跌',pricechange)
else:
print('股票累计没有变化',pricechange)
return pricechange
closeCol=babaDf['Close']
babachange=change(closeCol)
7.可视化:阿里巴巴一年股票变化
import matplotlib.pyplot as plt
plt.plot(babaDf['Close'])
plt.title('BABA')
plt.grid(True)
plt.show()