机器学习machine learning(2)| 基础知识点梳理

学习完机器学习,把知识点做一个整理,提供给需要面试的各位以及后期自己的巩固复习作一个简单的知识点梳理。
本文针对有一定机器学习基础的同学,如果有不正确处请指正。

预处理与特征工程

异常值/缺失值

  • 1个:可以直接删除;
  • 多个:通过方差齐性检验判断是否删除异常值所在特征列,或者用众数(针对离散值)或者均数(针对连续值)进行替换补充所在行。

归一化、标准化

  • 树模型/逻辑回归型模型:不需要此预处理;
  • SVM:需要此预处理,因为数据必须满足正态分布才可以进行后续的损失函数中去运用最小二乘法和距离计算,且提高精度
  • 梯度和矩阵:加快求解速度

文字编码独热化,时间sin化

特征选择

  • 过滤法:方差过滤、相关性过滤(卡方检验、F检验、互信息法),适合需要遍历所有特征的模型(决策树合适但随机森林不合适)
  • 嵌入法:L1,L2,输入阈值即可通过模型判断选择特征,适合线性回归和逻辑回归
  • 包装法:RFE,黑箱,通过Loss function判断选择特征,适合SVM

总结:一般来说,过滤法更快,但是粗糙。后两者更准确但是比较慢。当数据量很大时,优先使用方差过滤和互信息法。使用逻辑回归时,用嵌入法。使用SVM时,用包装法。迷茫的时候,从过滤法走起。

降维

  • PCA:衡量指标是对角线,对角线上是方差,利用特征值分解映射新维度,不可解释
  • SVD:衡量指标是奇异值,对角线上是奇异值,利用奇异值分解映射新维度,减少计算量
  • LDA:找到有判别力的维度映射,相似的特征映射在一起
  • PCA与LDA之间的差别:PCA和LDA虽然都用到数据降维的思想,但是监督方式不一样,目的也不一样。PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。LDA是通过数据降维找到那些具有有判
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
机器学习Machine Learning)是一门研究如何使计算机具备自动学习能力的学科。它通过构建数学模型和算法,让计算机能够从已经有的数据中自动学习,并根据学习到的知识完成各种任务,而无需显式地编程指令。 机器学习的核心思想是从海量的数据中抽取出其中的模式和规律,并将这些模式和规律应用于新的数据。通过统计学和概率论的方法,机器学习能够学习到数据之间的相关性,对未知的数据进行预测和分类。 在实际应用中,机器学习可以应用在各个领域,例如自然语言处理、图像识别、推荐系统、医学诊断等。机器学习算法可以根据不同的问题和数据类型选择不同的方法,如决策树、支持向量机、神经网络等。 机器学习的研究可以分为监督学习、无监督学习和强化学习三大类。监督学习是指给机器提供已经标注好的数据,让机器根据这些数据进行学习,例如给机器看很多猫的图片,让机器学习如何识别猫。无监督学习是指让机器自己从无标签的数据中学习,尝试发现数据之间的相似性和规律。强化学习则是通过试错的方式,让机器通过与环境的交互学习最优的策略。 机器学习的发展离不开大数据的支持,只有在海量的数据中才能够发现更加精准的规律。同时,也需要强大计算能力的支持,以便能够处理和分析大规模的数据。 机器学习在如今信息爆炸的时代具有广泛的应用前景,将成为数据驱动决策和智能化技术的重要基础。同时,随着硬件技术的不断发展和优化,机器学习的效率和准确度也将不断提高,助力人类更好地应对各种复杂的问题和挑战。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值