机器学习
目录:
机器学习的定义
-
机器学习是一门多领域交叉学科,设计概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科
-
机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构(利用数据或经验等)使之不断改善自身的性能。
-
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,包括网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和医疗诊断等应用。
机器学习应用场景
- 数据挖掘
- 计算机视觉
- 自然语言处理
- 生物特征识别
- 欺诈检测
- 语音-图像识别
- ^
机器学习介绍
机器学习现状
pattern recognition:模式识别
-
所谓模式识别的问题就是用计算的方法根据样本的特征将样本划分到一定的类别中去。
-
模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读,把环境与客体统称为“模式”。
什么是学习
-
学习:人在生活过程中,通过获得经验而产生的行为或行为潜能的相对持久的行为方式
-
机器学习:模拟人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构不断改善
自身的性能
机器学习基本术语
-
每一条记录为一个实例(instance)或样本(sample)
-
数据集:所有记录的集合
-
训练集:含有参考答案的数据,用来训练模型的已标注数据,用来建立模型,发现规律
-
测试集:模型训练过程中单独留出的样本集,用于调整模型的超参数和用于对模型的能力进行初步评估
【来自工作经验】:
- 训练集:测试集=8:2 or 7:3
机器学习分类
- 常规机器学习分类
- 非监督学习
- 监督学习
- 细分机器学习
- 聚类
- K-Means
- DBSCAN
- 回归
- 线性回归
- 逻辑回归
- 分类
- k最近邻
- 朴素贝叶斯
- 决策树
- 支持向量机
- 集成算法
- 随机森林
- Adaboost
- 聚类
什么是非监督学习
- 在非监督学习中,数据并未做任何标记,需要通过模型找到数据中隐藏的结构
什么是监督学习
-
在监督学习中,每组训练数据都有给定的标记(label),比如患者生病为1,不生病为0。
-
在建立模型的过程中,监督学习将预测结果与训练数据的标记结果作比较,不断的调整模型,直到准确率达到预期值。
聚类与分类的区别
- 分类: 监督学习,有限类别中的某一类
- 聚类: 无监督学习,不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记。聚类是一种探索性的分析,聚类分析所使用方法的不同,常常会得到不同的结论
聚类的基本流程
数据挖掘
-
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息(关系)的过程
-
数据挖掘通常与计算机科学有关,并通过统计学、专家系统(经验规则)、机器学习等诸多方法来实现上述目标
-
数据挖掘又是一个新兴、交叉学科领域
数据挖掘流程:
特征工程
- 特征工程就是选择一些表示典型特征的数据,来替代原始数据作为模型的输入,进而得到比较好的输出效果。
模型训练
人工智能、机器学习、深度学习之间的关系:
模型评估★
精确率:Precision(命中率)=TP/(TP+FN)
灵敏度:Recall(召回率)=TP/(TP+TN)
准确率:Accuracy=(TP+TN)/(TP+FN+FP+TN)
- TP: 实际结果被准确验证
- FN: 实际结果被错误验证
- FP: 错误结果被错误验证(错误结果被判定为实际想要的结果)
- TN: 错误结果被准确验证
1-命中率=误报率(False_positive_rate)
1-召回率=误报率(Underreporting_rate)
def Precision(TP,FN,FP,TN):
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)
Accuracy=(TP+TN)/(TP+FN+TN+FP)
False_positive_rate=1-Precision
Underreporting_rate=1-Recall
return Precision,Recall,Accuracy,False_positive_rate,Underreporting_rate
TP,FN,FP,TN=49,1,2,48
A1,A2,A3,A4,A5=mo(TP,FN,FP,TN)
模型预测
cy,False_positive_rate,Underreporting_rate
```PYTHON
TP,FN,FP,TN=49,1,2,48
A1,A2,A3,A4,A5=mo(TP,FN,FP,TN)
```
##### **模型预测**
[外链图片转存中...(img-yQZ2JAkM-1658305458028)]