机器学习、数据挖掘-推荐系统问题总结

参考各种资料总结一下,准备面试。更新中~

13、LR的损失函数?为何不用MSE?

损失函数为交叉熵

不使用MSE的原因有两个:

  1. MSE 会有梯度消失现象
  2. MSE 的导数非凸函数,求解最优解困难

MSE导数: 

交叉熵损失函数导数: 

14、k-means如何确定k的个数?初始点(簇心)的选择方法?

k值的确定:

  1. 最简单的方法可视化数据,然后观察出聚类聚成几类比较合适
  2. 肘方法:绘制图像,x轴为聚类的数量,y轴为WSS(within cluster sum of squares),取拐点处的k值。
  3. 轮廓系数法:通过枚举,令k从2到一个固定值如10,在每个k值上重复运行数次kmeans(避免局部最优解),并计算当前k的平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的集群数目。轮廓系数结合了聚类的类内凝聚度(Cohesion)和类间分离度(Separation),用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。

初始点选择方法:

主要思想,初始的聚类中心之间相互距离尽可能远.

1、k-means++

  1. 从输入的数据点集合中随机选择一个点作为第一个聚类中心
  2. 对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
  3. 选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大
  4. 重复2和3直到k个聚类中心被选出来
  5. 利用这k个初始的聚类中心来运行标准的k-means算法

2选用层次聚类算法进行初始聚类,然后从k个类别中分别随机选取k个点,来作为kmeans的初始聚类中心点

1、过拟合与欠拟合

过拟合:在训练数据集上表现较好,在测试集上表现较差。

可能的原因:

  1. 参数太多,模型复杂度高。
  2. 样本噪声数据较大,模型学到了噪声数据的特征。
  3. 对于决策树模型,对于决策树的生长没有进行合理的限制和修剪。
  4. 对于神经网络,迭代次数太多(overtraining),拟合数据中的噪声和无代表性的特征。

解决方法:

  1. 降低模型复杂度,使用简单的模型
  2. 增加数据样本
  3. 对于决策树,earlystopping
  4. 正则化,减少参数
  5. 对于神经网络,采用dropout
  6. 采用ensemble,集成模型。Bagging, boosting

欠拟合:在训练集和测试集表现都较差

可能的原因:

  1. 模型太简单
  2. 特征不
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 模式识别、机器学习数据挖掘都是与数据处理和分析相关的领域,它们有一些相似之处,但也有不同之处。 模式识别是一种从数据识别特定模式的方法,它涉及对数据进行分类、聚类和分割等操作。这些模式可以用于分类、预测、诊断等应用。 机器学习是一种人工智能技术,它使用算法和统计模型来分析数据,从而使计算机可以学习并执行特定任务。机器学习的重点是从数据自动学习,而不需要显式地编程。 数据挖掘是一种从大量数据自动发现隐藏模式和关系的技术。数据挖掘技术可以用于预测、分类、聚类等任务。 可以看出,模式识别、机器学习数据挖掘都涉及数据的处理和分析,但它们的重点略有不同。模式识别侧重于识别数据的模式,机器学习注重从数据自动学习并执行任务,而数据挖掘则着眼于从大量数据发现隐藏的模式和关系。 ### 回答2: 模式识别、机器学习数据挖掘是相互关联且有所区别的领域。 首先,模式识别是一种研究如何从给定数据确定和识别有规律的模式的方法。它主要关注如何在具有明确定义的类别之间进行分类和识别。例如,在图像识别,模式识别可以被用来识别数字、人脸或其他特定对象。模式识别方法包括统计、数学和模型等方面的技术,以从输入数据提取出有用的特征。 机器学习是一种研究如何通过使用算法和数学模型来让计算机系统从经验学习为特定任务进行决策的方法。机器学习关注于通过从数据自动学习规律和模式,从而改善系统的性能。与规则-Based 方法相比,机器学习的方法更加灵活和自适应,并且可以根据输入数据的变化及时进行调整和改进。 数据挖掘是通过使用统计和机器学习技术从大量数据自动发现隐藏的模式和关系的过程。它涉及从数据提取有价值的信息并发现其的模式、趋势和关联规则。数据挖掘方法包括聚类、分类、关联规则和预测等技术,可应用于各个领域,如市场营销、金融、医疗等。与模式识别和机器学习相比,数据挖掘更侧重于发现数据的模式和规律,并将其应用于实际问题的解决。 总结而言,模式识别、机器学习数据挖掘都关注从数据提取有用信息的方法。模式识别着重于确定和识别明确定义的模式,机器学习则通过学习和自适应来改善系统的性能,而数据挖掘则专注于自动发现数据的隐藏模式和关系。这些方法相互关联,相互借鉴,且在实践相辅相成。 ### 回答3: 模式识别、机器学习数据挖掘都是处理数据的领域,它们之间有一定的联系和区别。 首先,模式识别是研究如何识别数据的模式和结构的学科,目的是从数据提取特定的模式并进行分类、聚类或其他分析。它主要关注如何设计和使用算法来解决模式识别问题,通常涉及统计学、概率统计、模式匹配等领域。 机器学习是一种人工智能的方法,通过对大量数据进行学习,自动调整和改进模型,以实现对未知数据的准确预测和决策。机器学习算法通过训练样本来学习和自动优化模型参数,主要关注如何通过数据和算法来实现模型的自动学习和预测能力。 数据挖掘则是从大规模数据挖掘出有用的信息和知识的过程。它包括从数据提取模式、关联规则、异常检测等内容,目的是发现隐藏在数据背后的有价值的信息,用于决策支持、市场分析、业务优化等方面。 区别上来说,模式识别更加侧重于对数据的模式和结构的识别和分析;机器学习更加注重通过训练数据来学习并优化模型,在未知数据上进行预测和决策;数据挖掘则更加关注从大数据挖掘出有用的信息和知识。从应用角度来看,模式识别可以在很多领域使用,如图像识别、语音识别;机器学习广泛应用在预测、分类等方面;数据挖掘则常用于市场营销、客户关系管理等领域。 综上所述,模式识别、机器学习数据挖掘在处理数据方面有一定的联系和区别,它们各自有不同的目标和方法,但又相互依存、相互补充。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值