老师课堂总结,请勿转载
集合函数汇总
描述统计学精要
统计学可以分为:描述统计学与推断统计学
描述统计学:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。
推断统计学:研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
描述统计学:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。
推断统计学:研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
描述统计学内容包括
统计数据的收集方法数据的加工处理方法
数据的显示方法
数据分布特征的概括与分析方法等。
描述统计学的“干货”整理
透过对于数据资料的进行图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是频数分布表(frequency distribution table)与图示法,如多边图(polygon)、直方图(histogram, barchart)、圆形图(piechart)、散点图(scatterplot)等
透过分析数据资料,以了解各变量内的观察值集中与分散的情况。集中量数(measure of central location)有: 平均数(Mean)、中位数(Median, Md)、众数(Mode, Mo)、几何平均数(Geometric mean, GM)、调和平均数(Harmonic mean, HM)等
变异量数(measure of variation)有:全距(range)、平均差(average deviation, AD)、标准差(standard deviation, SD)、相对差、四分差(quartile deviation)等
众数:
数据中出现频次最多的数 填补缺省值
中位数:
将数据按大小排列后位于正中间的数描述(数目为奇数时就是排序后正中间的数,数目为偶数时是中间两个数的平均值)
几何平均数:![](https://img-blog.csdn.net/20170725093728700?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
算数平均数![](https://img-blog.csdn.net/20170725093830054?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![]()
全距![](https://img-blog.csdn.net/20170725093853208?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![]()
调和平均值![](https://img-blog.csdn.net/20170725093918821?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![]()
平均差![](https://img-blog.csdn.net/20170725093937892?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![]()
标准差![](https://img-blog.csdn.net/20170725094014240?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
大样本
标准差的无偏估计![](https://img-blog.csdn.net/20170725094035806?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
样本个数不是很多---小样本
众数和平均数之差可作为分配偏态(skewness distribution)的指标之一。如平均数大于众数,称为正偏态(positive skewness);相反,则称为负偏态(negative skewness)
偏度:
随机变量的四阶中心矩与方差平方的比值![](https://img-blog.csdn.net/20170725094505514?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
峰度:
随机变量的四阶中心矩与方差平方的比值![](https://img-blog.csdn.net/20170725094511367?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
归一化方式
(Xi-Xmin)/(Xmax-Xmin) 利用全距
标准分数(z-score):归一化的常用方法之一![](https://img-blog.csdn.net/20170725094515432?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzAxMzgyOTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
集合(set)
set是一个无序且不重复的元素集合
集合支持用in和not in操作符检查成员,由len()内建函数得到集合的基数(大小), 用 for 循环迭代集合的成员。
因为集合本身是无序的,不可以为集合创建索引或执行切片(slice)操作
集合支持用in和not in操作符检查成员,由len()内建函数得到集合的基数(大小), 用 for 循环迭代集合的成员。
因为集合本身是无序的,不可以为集合创建索引或执行切片(slice)操作
每一次显示 都不一样
set也有如下特性:
不重复
元素为不可变对象
set也有如下特性:
不重复
元素为不可变对象
>>> scoreA = [78,81,81,87,87,87,88,89,91,94]
>>> unique_scoreA = set(scoreA)
>>> unique_scoreA
{78, 81, 87, 88, 89, 91, 94}
se = {11, 22, 33}
be = {22, 55}
temp1 = se.difference(be) #找到se中存在, be中不存在的集合,返回新值
temp2 = se.difference_update(be) #找到se中存在,be中不存在的集合,覆盖掉se
se = {11, 22, 33}
temp = se.pop() # 移除末尾元素并把移除的元素赋给新值
se = {11, 22, 33}
be = {22, 55}
temp1 = se.intersection(be) #取交集,赋给新值
print(temp1) # 22
print(se) # {11, 22, 33}
temp2 = se.intersection_update(be) #取交集并更新自己
print(temp2) # None print(se) # 22
集合操作
转载链接
http://www.cnblogs.com/whatisfantasy/p/5956775.html
更新
se = {11, 22, 33}
be = {22,44,55}
se.update(be) # 把se和be合并,得出的值覆盖se
print(se)
se.update([66, 77]) # 可增加迭代项
print(se)
{33, 11, 44, 22, 55}
{33, 66, 11, 44, 77, 22, 55}
取并集
se = {11, 22, 33}
be = {22,44,55}
temp=se.union(be) #取并集,并赋新值
print(se) #{33, 11, 22}
print(temp) #{33, 22, 55, 11, 44}
合并
se = {11, 22, 33}
be = {22}
temp1 = se.symmetric_difference(be) # 合并不同项,并赋新值
print(temp1) #{33, 11}
print(se) #{33, 11, 22}
se.symmetric_difference_update(be) # 合并不同项,并更新自己
print(se) #{33, 11}
判断
se = {11, 22, 33}
be = {22}
print(se.isdisjoint(be)) #False,判断是否不存在交集(有交集False,无交集True)
print(se.issubset(be)) #False,判断se是否是be的子集合
print(se.issuperset(be)) #True,判断se是否是be的父集合
取交集
se = {11, 22, 33}
be = {22, 55}
temp1 = se.intersection(be) #取交集,赋给新值
print(temp1) # 22
print(se) # {11, 22, 33}
se.intersection_update(be) #取交集并更新自己
print(se) # 22
删除discard()、remove()、pop()
se = {11, 22, 33}
se.discard(11)
se.discard(44) # 移除不存的元素会报错
print(se)
se = {11, 22, 33}
se.remove(11)
se.remove(44) # 移除不存的元素会报错
print(se)
se = {11, 22, 33} # 移除末尾元素并把移除的元素赋给新值
temp = se.pop()
print(temp) # 33
print(se) # {11, 22}
{33, 22}
{33, 22}
33
{11, 22}
比较
se = {11, 22, 33}
be = {22, 55}
temp1 = se.difference(be) #找到se中存在,be中不存在的集合,返回新值
print(temp1) #{33, 11}
print(se) #{33, 11, 22}
temp2 = se.difference_update(be) #找到se中存在,be中不存在的集合,覆盖掉se
print(temp2) #None
print(se) #{33, 11},
Math模块
转载地址:
https://zhuanlan.zhihu.com/p/25536573
http://www.cnblogs.com/wanself/archive/2012/12/03/2800180.html
http://www.cnblogs.com/vamei/archive/2012/10/26/2741702.html
http://www.cnblogs.com/wanself/archive/2012/12/03/2800180.html
http://www.cnblogs.com/vamei/archive/2012/10/26/2741702.html