Black Box Machine Learning学习笔记

本文介绍了机器学习的基础,包括ML的定义、问题分类,深入探讨了特征提取、预测函数的损失函数、测试与部署中的偏差问题以及模型复杂度和过拟合的概念。通过实例讲解了一维特征提取和one-hot编码,并讨论了交叉验证在模型选择中的作用,以及测试集和部署集不一致性的来源,如数据泄漏、样本偏差和非平稳性。
摘要由CSDN通过智能技术生成

本文为Bloomberg的第一课,是100天机器学习挑战的Day15学习内容。

100天机器学习挑战汇总文章链接在这儿

目录

1 ML

1.1 什么是ML

1.2 ML问题分类

2 Elements of the ML Pipeline

3 Evaluating a Prediction Function——损失函数

4 Other Sources of Test ≠ Deployment

4.1 Leakage

4.2 Sample Bias

4.3 Nonstationary

5 模型复杂度和过拟合


1 ML

1.1 什么是ML

rule-based问题不是ML:

ML的解决问题思路是:

1.2 ML问题分类

分类(hard/soft probabilistic)

多分类(hard/soft probabilistic)

回归

在统计学习中,有两种模型:概率模型和非概率模型;

概率模型:形式为P(x|y),即在学习过程中,y未知,训练后模型得到的输出是x的一系列值的概率;

非概率模型:形式为决策函数,即输入x到输出y的一个映射,且输出唯一;

软分类:使用的是概率模型,输出不同类对应的概率,最后的分类结果取概率最大的类,如多SVM组合分类;

硬分类:使用的是非概率模型,分类结果就是决策函数的决策结果;

参考文章:https://blog.csdn.net/eternity1118_/article/details/51525702

2 Elements of the ML Pipeline

Feature Extraction 特征提取:

这里给出了一个例子,判断某个字符串是不是邮箱的地址,可以这样做特征提取:

一个更加syste

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值