机器学习
一、机器学习的概念及定义
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
定义:为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升。
二、机器学习的分类
1、有监督学习(带答案数据):训练样本包含对应的标签。有监督学习又分为回归问题和分类问题两大类。
分类问题:样本标签属于离散变量,比如Titanic数据集中生存与否就是标签;
回归问题:样本标签属于联系变量,比如预测房价,预测销售额。
分类问题又包括生成模型和辨别模型。
生成方法用数据学习联合概率分布:
联合概率分布:假设有随机变量X,Y,此时P(X=a且Y=b)用于表示X=a且Y=b的概率
判别式模型(非概率模型)— 条件概率分布
条件概率(贝叶斯公式)
事件A在事件B发生的条件下发生的概率
条件概率:
$P(A|B) = \frac{P(AB)}{P(B