一、机器学习概念
1、 什么是机器学习
机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。
简单说,机器学习的目的就是让计算机随着经验的积累自动提高性能。
2、应用领域
- 计算金融学,用于信用评估和算法交易
- 图像处理和计算机视觉,用于人脸识别、运动检测和对象检测
- 计算生物学,用于肿瘤检测、药物发现和DNA 顺序分析
- 能源生产,用于预测价格和负荷
- 汽车、航空航天和制造业,用于预见性维护
- 自然语言处理
二、机器学习两大类型
1、监督式学习
监督式学习算法接受已知的输入数据集和对数据的已知响应(输出),然后训练模型,让模型能够为新输入数据的响应生成合理的预测。
监督式学习又可分为分类和回归两大类:
- 分类技术可预测离散的响应—例如,电子邮件是真正邮件还是垃圾邮件,肿瘤是恶性还是良性的。分类模型可将输入数据划分成不同类别。典型的应用包括医学成像、语音识别和信用评估。
- 回归技术可预测连续的响应—例如,电力需求中温度或波动的变化。典型的应用包括电力系统负荷预测和算法交易。
2、无监督式学习
无监督学习可发现数据中隐藏的模式或内在结构。这种技术可根据包含未标记响应的输入数据的数据集执行推理。
聚类是一种最常用的无监督学习技术。这种技术可通过探索性数据分析发现数据中隐藏的模式或分组。
聚类的应用包括基因序列分析、市场调查和对象识别。
三、监督式学习的几个常用算法详解
1、KNN(K-近邻)
在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:
- 计算测试数据与各个训练数据之间的距离
- 按照距离的递增关系进行排序
- 选取距离最小的K个点
- 确定前K个点所在类别的出现频率
- 返回前K个点中出现频率最高的类别作为测试数据的预测分类
2、逻辑回归
逻辑回归是线性回归演变而来的,逻辑回归模型是一个非线性模型,最擅长处理二分分类的问题。
首先它的核心,就在于sigmoid函数: