统计分析与数据挖掘
文章平均质量分 77
统计分析与数据挖掘
贪心西瓜
学习笔记
展开
-
Logistic逻辑回归模型与参数估计
一、引言线性回归的因变量是连续变量,而逻辑回归解决的是因变量是分类变量的问题。当然,自变量既可以是连续的也可以是分类的,但是分类变量做自变量前需要做哑变量处理。逻辑回归将分类因变量的0、1等 值转换为取其值的概率,将二分类模型转换为线性函数模型,转换后模型课表示为lnp(y=1)1−p(y=1)=β0+β1x1+...+βpxp+εln\frac{p(y=1)}{1-p(y=1)}=\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p}+\varepsilon ln原创 2021-04-14 17:00:01 · 9025 阅读 · 0 评论 -
多元线性回归-最小二乘法 最大似然估计
引言设随机变量yyy与一般变量x1,x2,...,xpx_{1},x_{2},...,x_{p}x1,x2,...,xp的线性回归模型为:y=y=y=样本(x,y)(x,y)(x,y)可由y=β0+β1x+εy=\beta _{0}+\beta _{1}x+\varepsilony=β0+β1x+ε 表示,其中,ε\varepsilonε为随机因素引起的噪声, y=β0+β1xy=\beta _{0}+\beta _{1}xy=β0+β1x为用变量xxx和yyy关系描述的一元线性回归原创 2021-04-14 14:07:35 · 5612 阅读 · 0 评论 -
连续变量降维-因子分析
一、与主成分分析的关系(1)主成分分析是将原始变量做线性组合;而因子分析是将原始变量做分解,表示成公共因子和特殊因子的线性组合;(2)主成分分析中不需要专门的假设;而因子分析则需要,主要包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子不相关等;(3)主成分分析中,给定的 协方差矩阵 或者 相关矩阵 的 特征根 是唯一的,主成分一般是固定的;而因子分析的因子不是固定,可以旋转得到不同的因子;(4)主成分中,未筛选的主成分数量一定,总数量等于特征个数;因子分析的因子个数需要分析者自定原创 2021-04-11 14:45:15 · 857 阅读 · 0 评论 -
聚类算法-层次(系统)聚类 Kmeans聚类 两步聚类
一、距离定义1.1 点-点 距离距离用来衡量观测变量的属性,第iii个特征的观测值Xi=(xi1,xi2,...,xip)X_{i}=(x_{i1},x_{i2},...,x_{ip})Xi=(xi1,xi2,...,xip),第jjj个特征的观测值Xj=(xj1,xj2,...,xjp)X_{j}=(x_{j1},x_{j2},...,x_{jp})Xj=(xj1,xj2,...,xjp),XiX_{i}Xi和XjX_{j}Xj的距离有几种计算方式:(1)曼哈顿距离 :可用于既有原创 2021-04-09 22:01:46 · 3010 阅读 · 0 评论 -
连续变量降维-主成分分析
一、主成分分析基本思想主成分分析的基本思想是:在尽可能多地保留原始变量信息的前提下达到降维目的,从而抓住主要矛盾,以简化问题的复杂性。为了合并原始信息,主成分分析将多个原始变量X1,X2,...,XpX_{1},X_{2},...,X_{p}X1,X2,...,Xp进行线性变换,形成少数几个新的综合变量Y1,Y2,...,YqY_{1},Y_{2},...,Y_{q}Y1,Y2,...,Yq。由于不同的线性变换得到的综合变量YYY不尽相同,为了获得较好的效果,我们希望线性变换能够尽可能多的包原创 2021-04-07 14:43:16 · 591 阅读 · 2 评论 -
一元线性回归-最小二乘法 最大似然估计
引言本文以一元线性回归为例,整理线性回归模型参数的估计方法。样本(x,y)(x,y)(x,y)可由y=β0+β1x+εy=\beta _{0}+\beta _{1}x+\varepsilony=β0+β1x+ε 表示,其中,ε\varepsilonε为随机因素引起的噪声, y=β0+β1xy=\beta _{0}+\beta _{1}xy=β0+β1x为用变量xxx和yyy关系描述的一元线性回归模型。模型中参数β0\beta _{0}β0和β1\beta _{1}β1估计的两种常用方法为最小原创 2021-04-03 16:19:08 · 6293 阅读 · 0 评论 -
回归的拟合优度
1. 评价指标为样本编号,为真实值,为预测值,是真实值的平均数,则1)均方误差:MSE(Mean Squared Error) 2)均方根误差:RMSE(Root Mean Squard Error) 3)平均绝对误差:MAE(Mean Absolute Error) 4)回归平方和:SSR(Sum of Squares forregression) = ESS (explained sum of squares)...原创 2020-11-28 11:50:15 · 3822 阅读 · 0 评论