1-1 机器学习基础:机器学习项目流程、特征向量、距离公式

1、简述机器学习项目的一般流程

2、哪些机器学习算法需要做特征归一化,哪些不需要,为什么

3、One-hot的作用是什么?为什么不直接使用数字作为表示

4、什么是数据不平衡,如何解决

5、请比较欧式距离与曼哈顿距离


1、简述机器学习项目的一般流程

机器学习一般流程为:

(1)机器学习方案的整体构建和制定

(2)数据洞察、预处理:数据采集、数据洞察(探索性分析)、数据标注(人工标注、远程监督、埋点日志挖掘等)、数据预处理、数据转换/特征工程

(3)数据集的划分:训练集、验证集、测试集的划分和构建,面向领域场景的测试集构建(高频测试集、对抗样本测试集、用户反馈样本集等)

(4)模型开发:模型的训练、验证、建模方式和模型选型的调优、超参数调整

(5)模型部署与上线: 模型打包、模型预测时负载、环境、ABtest、监控模型线上的表现


2、哪些机器学习算法需要做特征归一化,哪些不需要,为什么

需要归一化:逻辑回归、神经网络、KNN,消除特征数值分布的不统一、有利于权重及权重梯度更新的学习与计算,减少抖动稳定同步下降,加快收敛

不需要归一化:决策树,仅考虑特征的条件选择与数值大小本身无关


3、One-hot的作用是什么?为什么不直接使用数字作为表示

主要用于编码类别特征,用稀疏向量来表达特征,特征之间是平等的没有距离远近的关系。避免数字导致距离计算等数值问题。特征之间是互斥的。


4、什么是数据不平衡,如何解决

不同类别的样本数量不均匀,

模型倾向于预测样本标签分布较多的值,对样本少的类别预测性能下降

(1)数据增广 (2)采样,类别少的加大采样率 (3)loss改进 如 focal loss 


5、请比较欧式距离与曼哈顿距离

欧式距离:计算两个点之间的平方和,然后开根号

曼哈顿距离:计算各维度差异的绝对值的和,各维度的距离有相同的权重。用于地图、导航应用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值