统计学(11.4-2.22)每周更新
教材:《统计学第四版》贾俊平
Aries_楊小欣�
这个作者很懒,什么都没留下…
展开
-
梯度下降法
背景:在选择最优的函数时,我们的目标是让损失函数最小化,比如最小二乘法,但有些模型的损失函数非常复杂,无法得到参数估计值的表达式。因此,我们需要一种更普遍适用的方法求解最优函数——“梯度下降法”。 宗旨:从损失值出发,去更新参数,且要大幅降低计算次数。通过导数告诉我们此时此刻某参数应该朝什么方向,以怎样的速度运动,能安全高效降低损失值,朝最小损失值靠拢。 概念:梯度是向量,是多元函数的导数,指...原创 2019-12-14 19:58:19 · 166 阅读 · 0 评论 -
python实现概率分布
概率分布 概念: 主要用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属类型的不同,概率分布取不同的表现形式。 分类: 离散数据:数据由一个个单独的数值组成,其中的每一个数值都有相应概率。(伯努利分布、二项分布、几何分布、泊松分布) 连续数据:数据涵盖的是一个范围,这个范围内的任何一个数值都有可能成为事件的结果。(正态分布、幂律分布) 安装python的科学计算包sci...原创 2019-12-01 11:14:59 · 1048 阅读 · 0 评论 -
处理分类型特征
类别型特征的原始数据一般都是字符串形式,只有决策树等少数模型可以处理字符串的输入,对于传统的模型来说,类别型特征必须经过处理转成数值型特征。 处理方式有三种: 一、序号编码:用于处理类别间具有大小关系的数据。 二、独热编码:稀疏向量 三、二进制编码:第一步:给每个类别赋予ID,第二步:对ID进行二进制编码。优点:维数少,节省空间。 独热编码的python实现: from ...原创 2019-11-23 22:46:36 · 492 阅读 · 0 评论 -
第五章 概率分布
原创 2019-11-23 18:33:01 · 156 阅读 · 0 评论 -
统计量的python实现
一、读取数据(pandas库) data = pd.read_csv(path, encoding = "UTF-8") 二、集中趋势的度量 (numpy库) 1.众数 from scipy.stats import mode mode_num = mode(data) 众数:mode_num[0][0] 个数:mode_num[1][0])) 2.中位数 data.m...原创 2019-11-15 09:53:54 · 530 阅读 · 0 评论 -
第四章 数据的概括性度量
原创 2019-11-07 22:08:54 · 136 阅读 · 0 评论 -
第三章 数据的图表展示
原创 2019-11-07 19:37:11 · 145 阅读 · 0 评论