机器学习--绪论

机器学习定义

经典定义:利用经验改善系统自身的性能

经验 -> 数据

从某种意义上,机器学习是分析数据的技术 or 关于学习算法的设计分析和应用的学问

主要研究领域:智能数据分析【数据分析用计算机算法来做】

类别标签(label):

对数据的分类类别

训练数据:

历史数据

模型:

从数据中产生的东西,可以理解为一种神经网络或一种规则

学习算法(learning algorithm):

从数据到模型的训练

机器学习理论

机器学习常用于解决高度不确定型高度复杂性的问题

概率近似正确,以很高的概率得到很好的模型

基本术语

数据部分

数据集:所有数据所构成的集合

训练:用拿到的数据建立模型的过程

测试(test):实际上是“用模型”

       两层含义  1.为了解模型的性能 -> 测试数据在训练数据之外,测试数据的结果已知

                        2.为得到结果 -> 输入一个新的数据,用模型判断从而得到结果

示例(instance):样本的特征值,是没有结果的

样例(example):是有结果的

样本(sample):数据或数据集

属性(attribute)/ 特征(feature):样本所具有的性质或特性 eg.颜色

属性值:属性上的取值  eg.颜色为青绿色

属性空间 / 样本空间 / 输入空间:多个属性所构成的空间,包含所有样本,每一个样本都是一个向量

标记空间 / 输出空间:为多元输出回归时,输出(标记)也是一个向量

模型部分

假设(hypothesis):模型学到的关于结果的一个规律 ,不一定是对的

真相(ground-truth):真实的结果,是对的

学习器(learner):一个算法对于一个数据和一个参数在给定示例化之后得到的一个结果

输出部分

离散输出:分类    eg.Yes or No

                          二分类:最基本的问题

                          多分类:都可拆分为若干个二分类问题

## 分类问题是机器学习研究的最基本的问题

连续输出:回归(regression)  eg.0~1之间

学习任务部分

监督学习:数据里面期望的结果

        典型任务:预测类任务

无监督学习:数据没有期望的结果

        典型任务:聚类,密度估计

未见样本(useen instance):未来的新数据

未知”分布“:假设未来的数据和原来的数据都来自同一个分布,符合同一个规律

独立同分布(i.i.d.):每个样本都是独立的,根据同一个分布产生的假设

## 独立同分布假设是机器学习利用概率统计来推断概率分布的前提条件

泛化能力(generalization):模型处理新的数据的能力,从特殊到一般

特化能力(specialization):与泛化对应,从一般到特殊

泛化界:推导出的最小误差的估计,判断模型是否做得到

归纳偏好(Inductive Bias)

机器学习算法在学习过程中对某种类型假设的偏好

一般原则 / 基本准则:奥卡姆剃刀(Occam's razor)

                        ==> 若非必要,勿增实体,选取最简单的模型的思想。

## 学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!

** 算法的选择要注重考虑问题本身!

NFL定理(No Free Lunch Cereal)

一个算法La若在某些问题是上比另一个算法Lb好,比存在另一些问题Lb比La好

NFL定理的重要前提:所有”问题“出现的机会相同、或者所有问题同等重要

## 具体问题,具体分析! 

## 最优方案往往来自:按需设计,量身定制

### 机器学习绪论:头歌平台介绍和基础概念 #### 什么是机器学习机器学习人工智能的一个子领域,专注于研究如何使计算机能够在不进行明确编程的情况下从经验中学习并改进性能[^1]。通过构建预测模型或决策规则,机器学习旨在处理各种复杂的数据集,并从中提取有价值的信息。 #### 头歌平台上机器学习课程的特点 在头歌实训平台上的《机器学习》系列课程中,学生可以接触到全面而系统的理论讲解以及实践操作机会。该平台提供了丰富的案例分析与项目实战环节,帮助学员深入理解不同类型的算法及其应用场景。特别是对于初学者而言,《机器学习——绪论》部分尤为重要,它涵盖了基本定义、历史背景和发展趋势等内容[^4]。 #### 基础概念解析 - **监督学习**:给定带有标签的数据样本作为输入,在此基础上训练得到映射函数f(x),使得新来的未见过的测试样例也能被正确分类或者回归预测。 - **无监督学习**:只提供特征向量而不给出对应的类别标记,目的是发现隐藏于数据内部结构模式,如聚类分析等任务。 - **强化学习**:智能体(agent)在一个环境中采取行动(action), 并根据环境反馈(reward/penalty)调整自己的行为策略(policy),以达到长期累积奖励最大化的目标[^2]。 ```python # Python代码示例 - 使用sklearn库实现简单的K近邻(KNN)分类器 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier(n_neighbors=3) X_train, y_train = [[0], [1], [2], [3]], ['cat', 'dog', 'cat', 'dog'] knn.fit(X_train, y_train) print(knn.predict([[1.5]])) # 输出: ['dog'] ``` #### NFL定理的意义 No Free Lunch (NFL) 定理指出,在没有任何先验知识的前提下比较两个不同的优化算法是没有意义的;也就是说,不存在一种通用的最佳解决方案适用于所有可能遇到的问题实例。因此,在实际应用过程中应当针对特定场景选择合适的工具和技术路线[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值