数据分析相关问题

博客围绕数据分析与机器学习展开,探讨随机森林较一般决策树稳定的原因,介绍聚类分析及k-means算法原理步骤,分析对缺失值敏感的模型如逻辑回归、SVM等,对比线性回归和逻辑回归区别,还给出SQL提取用户最早访问URL的要求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 请说明随机森林较一般决策树稳定的几点原因

随机森林由多棵决策树形成,并且并行计算多棵决策树。

稳定的原因:

(1)bagging的方法,多棵树投票提高泛化能力 
(2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力

决策树的缺点和注意事项:

决策树的最大缺点:贪心算法。决策树做的选择只能是某种意义上的局部最优选择。 
若目标变量是连续变量,决策树不可以使用,改用回归模型。 
若某些自变量的类别种类较多,或者自变量是区间型时,决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证,确保其具有稳定性。 
对区间型变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失了某些重要信息,尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱造成的损失更为明显。

2 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类中。

聚类方法主要有:

a. 层次聚类:对给定的数据集进行层次的分解,直到满足某种条件为止。具体分为“自底向上”和“自顶向下”两种方案。
b. 划分聚类:给定一个有N个元组或者纪录的数据集,用分裂法构造K个分组,每个分组代表一个聚类,K《N。
           经典算法:kmeans
c. 密度聚类:与其他方法的根本区别:不是基于各种各样的距离,而是基于密度的。
           经典算法:DBSCAN。指导思想:只要一个区域中的点的密度大过某个阈值,把它加到与之相近的聚类中。
d. 网格聚类:首先将数据空间划分为有限个单元(cell)的网格结构,所有的处理都以单个的单元为对象。
           经典算法:STING,利用网格单元保存数据统计信息,从而实现多分辨率的聚类。
e. 模型聚类:基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。
           高斯混合模型

具体介绍k-means,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。

3 以下算法对缺失值敏感的模型包括:(AE)

A、Logistic Regression(逻辑回归) B、随机森林 C、朴素贝叶斯 D、C4.5 E、SVM

具体分析:

A 逻辑回归(目标变量是二元变量):

建模数据量不能太少,目标变量中每个类别所对应的样本数量要足够充分,才能支持建模。 
排除共线性问题(自变量间相关性很大)。 
异常值会给模型带来很大干扰,应剔除。 
逻辑回归不能处理缺失值,所以之前应对缺失值进行适当处理。

B 随机森林:

可处理高维数据,不同特征进行选择(特征子集是随机选择)。 
模型的泛化能力较强。 
训练模型时速度快,成并行化方式,即树之间相互独立。 
模型可以处理不平衡数据,平衡误差。 
最终训练结果,可以进行排序,选择比较重要的特征。 
随机森林有袋外数据(OOB),因此不需要单独划分交叉验证集。 
对缺失值、异常值不敏感。 
模型训练结果准确度高。 
相对Bagging能够收敛于更小的泛化误差。

C 朴素贝叶斯:

假设前提有两个,第一个为:各特征彼此独立;第二个为:对被解释变量的影响一致,不能进行变量筛选 
朴素贝叶斯对缺失值不敏感。

D C4.5决策树:

C4.5算法的优点是:产生的分类规则易于理解,不用做特征选择,准确率较高。 
C4.5算法的缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 
C4.5对缺失值不敏感,因为它有应对缺失值的处理方案。

E SVM:

SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。  
SVM的优点: 
可以解决小样本,高维和非线性问题。 
可以避免神经网络结构选择和局部极小点问题。 
SVM的缺点: 
对缺失数据敏感。 
对非线性问题没有通用解决方案,须谨慎选择不同Kernel function来处理。

4 线性回归和逻辑回归的区别

线性回归针对的目标变量是区间型的, 逻辑回归针对的目标变量是类别型的。 
线性回归模型的目标变量和自变量之间的关系假设是线性相关的,逻辑回归模型中的目标变量和自变量是非线性的。 
线性回归中通常会用假设,对应于自变量x的某个值,目标变量y的观察值是服从正态分布的。逻辑回归中目标变量y是服从二项分布0和1或者多项分布的。 
逻辑回归中不存在线性回归中常见的残差。
参数估值上,线性回归采用最小平方法,逻辑回归采用最大似然法。

5 根据要求写出sql

表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页面地址,字符型) 要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)

create B as select Member_ID,min(Log_time),URLfrom A group by Member_id
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值