数据分析与挖掘方法

最新推荐文章于 2022-12-04 16:07:29 发布

cartini_app

最新推荐文章于 2022-12-04 16:07:29 发布

阅读量1k

点赞数

分类专栏：数据分析与挖掘文章标签：数据分析图形产品

本文链接：https://blog.csdn.net/cartini_app/article/details/5885408

版权

数据分析与挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、线性回归方程的基本模型
　　线性回归分析是考察变量之间的数量关系变化规律，它通过一定的数学表达式—回归方程，来描述这种关系，以确定一个或几个变量的变化对另一个变量的影响程度，为预测提供数学依据。
　　线性回归方程从样本数据出发，一般利用最小二乘法，根据回归直线与样本数据点在垂直方向上的偏离程度最低的原则，进行回归方程的参数的求解。根据线性回归方程总自变量的个数，回归方程可分为一元线性回归方程和多元线性回归方程。
　　 1．一元线性回归模型
　　一元线性回归模型是两个变量之间的关系可以通过有关的参数直接用直线关系来表示。　　其模型是：
　　 Yi=β0+β1xi+εi
　　式中：Y为被解释变量（因变量）；x为解释变量（自变量），ε是随机误差项，i为观测值下标，n为样本容量， β0与β1是未知参数，β0称为回归常数，β1为回归系数。
　　 2．多元回归模型
　　多元线性回归模型中自变量的个数在2个以上，模型的一般形式为：
　　 Yi=β0+β1X1i+β2X2i+…+βkXki+εi 　　i=1,2…n
　　其中，为被解释变量（因变量），x1x2…xk 为解释变量（自变量），是随机误差项，i为观测值下标，n为样本容量，β0，β1，β2，…βk，为k+1个待估参数，β0称为回归常数，β0，β1，β2，…βk，称为回归系数。

二、线性回归方程的统计检验
　　 1．回归方程拟合优度检验
　　 2．回归方程的显著性检验
　　 3．回归系数显著性检验

三、回归分析假设条件的检验
　　 1．残差分析
　　 2．多重共线性
　　 3．误差项的序列相关

四、线性回归分析的基本步骤
　　 1．确定回归中的自变量和因变量
　　 2．从收集到样本数据出发确定自变量和因变量之间的数学关系，即建立回归方程
　　 3．对回归方程进行各种统计检验
　　 4．利用回归方程进行预测
　　在利用统计软件进行回归分析时，只有第一步由用户给定，其它均可由计算机完成。

第二节判别分析

一、判别分析法的基本思想
　　判别分析是一种进行统计鉴别和分组的技术，最早由费雪（Fisher）于1936年提出。它是根据观察或测量到若干变量值，判断研究对象如何分类的方法。在进行判别分析时，首先必须已知观察对象的分类和若干表明观察对象特征的变量值。然后再从中筛选出能提供较多信息的变量并建立判别函数，然后利用其结果对待判对象进行判断其类别。在判别分析中，称分类变量为因变量，而用以分类的其它特征变量称为判别变量或自变量。简而言之，判别分析包括以下两步：
　　 1．分析和解释各类指标之间存在的差异，并建立判别函数。
　　 2．以第一步的分析结果为依据，将对那些未知分类属性的案例进行判别分类。

二、判别分析基本模型与统计术语
　　（一）假设条件
　　 1．每一个类别都取自一个多元正态总体的样本
　　 2．所有正态总体的协方差矩阵或相关矩阵都相等
　　（二）基本模型
　　判别分析的基本模型是判别函数，它表示为分组变量与满足假设条件的判别变量之间的线性关系，其数学形式如下：
　　 Di=b0+b1X1i+b2X2i+…+bkXki
　　其中，D是判别得分，Di表示对应于第i个个体的得分（i=1,2…n）；
　　 b为判别系数。bj表示对应于第j个自变量的系数（j=1,2…k）；
　　 X为自变量。Xji表示对应于第i个个体和第j个自变量的值。
　　（三）统计术语
　　先验概率
　　后验概率
　　判别系数
　　结构系数
　　分组的矩心
　　判别力指数
　　残余判别力

三、分析的基本步骤
　　确定研究的问题
　　获取判别分析的数据
　　进行判别分析
　　评价和解释分析结果

聚类分析(又称数字分类学)是新近发展起来的一种研究分类问题的多元统计分析方法。它是根据事物本身的特性研究个体分类的方法，其基本原则是同类的个体有较大的相似性，而不同类的个体的差异很大。在聚类分析中，根据分类对象的不同可分为样品聚类(Q型聚类)和变量聚类（R型聚类）两种。样品聚类是对事件进行聚类，或是说对观测量进行聚类，是对反映被观测对象的特征的变量值进行分类。变量聚类则是当反映事物特点的变量很多时，我们根据所研究的问题选择部分变量对事物的某一方面进行研究的聚类方法。

第三节聚类分析

一、距离与相似系数
　　 1．定距或定比率数据的距离和相似系数
　　常用的距离指标有：
　　 (1)欧式距离
　　 (2)欧式距离的平方
　　 (3)曼哈顿距离
　　 (4)切比雪夫距离
　　 (5)幂距离
　　常用的相似系数指标主要有：
　　 (1)余弦系数
　　 (2)皮尔逊相关系数
　　 (2)定类数据的距离
　　 (1)卡方距离
　　 (2)法方距离

二、聚类方法
　　 1．层次聚类法
　　 2．迭代聚类法

三、聚类分析的主要步骤
　　 1．确定研究的问题
　　 2．计算相似性
　　 3．聚类
　　 4．聚类结果的解释和证实

第四节因子分析

一、因子分析的基本思想
　　因子分析是一项多元统计分析技术，其主要目的就是简化数据。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示基本的数据结果。这些假设变量是不可观测的，通常称为因子。它们反映了原来众多的观测变量所代表的主要信息，并能解释这些观测变量之间的相互依存关系。

二、因子分析的数学模型和相关统计量
　　（一）数学模型
　　（二）相关统计量
　　 1．因子载荷
　　 2．共同度
　　 3．因子的贡献
　　 4．巴特利特球体检验
　　 5．KMO指数

三、因子分析的基本步骤
　　 1．确定研究变量
　　 2．计算所有变量的相关矩阵
　　 3．构造因子变量
　　 4．因子旋转

第五节对应分析

一、对应分析的基本思想
　　对应分析（Correspondence Analysis）又称为相应分析，是由法国统计学家J．P．Beozecri于1970年提出的，是在R型和Q型因子分析基础上，发展起来的一种多元相依的变量统计分析技术。它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时，使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。

二、有关统计术语与资料格式
　　（一）统计术语
　　 1．列联表
　　 2．主成分
　　 3．惯量和特征值
　　（二）数据格式

三、分析的步骤
　　 1．确定研究的内容
　　 2．获取分析资料
　　 3．对列联表作对应分析
　　 4．解释结果意义
　　 5．评价分析结果

第六节多维偏好分析

一、主成分分析法简介
　　（一）主成分分析的基本思想
多维偏好分析采用的统计方法就是主成分分析法，因而必须对主成分分析法有一个初步的了解。主成分分析法就是将原来众多具有一定相关性的指标（如p个指标），重新组合成一组新的相互无关的综合指标来代替原来的指标。
　　（二）主成分分析的数学模型
　　（三）主要统计术语
　　 1．偏好评分
　　 2．特征值或惯量

二、分析的基本步骤
　　 1．确定研究的问题
　　 2．资料的收集
　　 3．主成分分析
　　 4．偏好图并解释结果意义
　　 5．评价分析结果

第七节多维尺度法

一、多维尺度法的基本介绍
　　多维尺度法的基本思想是，将消费者对各种品牌产品的偏好和感觉资料，用r维空间的点来表示。品牌的点间距离的次序完全反映原始输入的相似次序（两种品牌间的距离越短，则越相似）。具体主要包括两步：（1）初步图形结构的构造。构造一个r维的坐标空间，并用该空间的点分别表示各种品牌的产品，此时点间的距离未必和原始输入的次序相同。（2）初步图形结构的修改。通过反复的迭代计算，逐步修改初步图形结构，以得到一个新的图形结构，使得在新的结构中各种品牌的点间距离次序和原始输入次序完全一致。

二、统计术语与数据格式
　　（一）统计术语　
　　接近程度。
　　空间图
　　克鲁斯卡系数
　　残差
　　（二）数据格式
　　多维尺度法输入的数据是表示待比较事物之间相似程度的矩阵。

三、分析的基本步骤
　　 1．确定研究的问题
　　 2．获取资料
　　 3．作多维尺度分析
　　 4．作空间图并解释结果意义
　　 5．评价分析结果

第八节联合分析

一、联合分析的基本概念与功能
　　联合分析方法的基本思想是，通过提供给消费者以不同的属性组合形成的产品，请消费者做出心理判断，按其意愿程度给产品组合打分、排序，然后采用数理分析方法对每个属性水平赋值，使评价结果与消费者的给分尽量保持一致，来分析研究消费的选择行为。
　　联合分析可应用于以下几个方面：
　　决定各种属性在消费者选择品牌时的相对重要性；
　　估计不同属性的市场占有率；
　　确定最受欢迎品牌的属性水平组合；
　　根据消费者对属性水平偏好的相似性，进行市场细分。
　　此外，还可应用于新产品概念的识别、竞争分析、定价研究、广告研究等市场营销的各个领域。

二、联合分析的模型和有关统计术语
　　（一）联合分析的基本模型
　　　　　　　

　　　　　　　
　　其中， y=全轮廓的偏好得分；
　　 a=截距；
　　 bij=第i个属性（ i,i=1，2，…,m）第j个水平（j，j=1，2，…, ）的效用值或分值贡献；
　　 ki=第i个属性的水平数；
　　 m=属性数；
　　 xij=指定不同属性水平的哑变量；
　　 xij=1，如果第i个属性的第j个水平出现；
　　 xij=0，其它；
　　 u(x)=全轮廓的总效用。

　　（二）统计术语
　　 1．分值函数
　　 2．属性和水平
　　 3．相对重要性权数
　　 4．全轮廓
　　 5．配对表
　　 6．实验设计
　　 7．内部有效性
　　 8．最大效用模型

三、联合分析的基本步骤
　　1．确定研究对象　
　　 2．确定属性及水平
　　 3．实验设计
　　 4．资料的收集
　　 5．计算属性的分值
　　 6．评价分析的结果
　　 7．解释结果
　　 8．模拟市场占有率

cartini_app

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据分析与挖掘方法

一、线性回归方程的基本模型　　线性回归分析是考察变量之间的数量关系变化规律，它通过一定的数学表达式—回归方程，来描述这种关系，以确定一个或几个变量的变化对另一个变量的影响程度，为预测提供数学依据。　　线性回归方程从样本数据出发，一般利用最小二乘法，根据回归直线与样本数据点在垂直方向上的偏离程度最低的原则，进行回归方程的参数的求解。根据线性回归方程总自变量的个数，回归方程可分为一元线性回归方程和多元线性回归方程。　　 1．一元线性回归模型　　一元线性回归模型是两个变量之间的关系可以通过有关的参数直接用
复制链接

扫一扫