机器学习定义 part 1:
机器学习:只通过数据建模,解释并预测事物。
人工智能:可以感知周围世界,并作出计划和决策的代理人
数学模型:事物或者各属性之间关联的数学表示
- 方程(组)
- 拓扑
- 逻辑描述
人工智能涉及领域: ML、NLP、神经科学、逻辑理论、计算机视觉等等
机器学习定义 part 2 监督学习1:
监督学习: 通过带正确答案的数据,建立模型并预测事物
回归:研究两种及以上变量之间的关系,拟合数据。
线性回归:研究两种及以上的变量之间的线性关系。(一次关系)
损失函数:线性模型和数据之间误差的函数
梯度下降:主要优化3维及以上的损失函数,以每次移动一小步的方式迭代寻找最优(小)的损失。
过拟合:模型过于依赖相关性低的数据或特征,如异常值、过多的特征等,使得模型不符合实际。
过拟合的处理方法:
- 更多的数据/更少的特征
- 正则化:保留所有特征,但降低特征的参数值(为什么?你问拉格朗日)
机器学习定义 part 3(监督学习2):
参数学习:预先定义学习模型的形式,如线性回归的回归系数个数。
非参数学习:学习模型的形式没有预先定义,完全依靠数据建立。
KNN:通过K个最邻近的数据点出现的最大频率(离散数据)或者均值(连续数据),测当前输入的类别或者预值。
决策树:以最纯净的方式进行二分类迭代,形成一棵2叉树。(纯净的度量方式:熵、Gini不纯度、错误率等等,取最大信息增益)
交叉验证:把数据集分为测试集和训练集,以测试模型的泛化能力。(常用方法有:k-folds , Hold-Out , Leave-One-Out
随机森林:组合多可决策树的结果进行预测。常用的超参数有:最小叶结点书目、最大子树树木、每课子树的数据数量、特征数量等
超参数调整:在训练之前设置的参数。如随机森林的最大子树书目。
集成模型:集成多个模型进行预测。
机器学习定义 part 4(神经网络与深度学习):
神经网络:模拟生物神经连接,节点以层级的方式排列,组合多个节点向下一层级节点传递的值,由具体逐渐到抽象的结果。
深度学习:研究使神经网络可以工作的结构和方法。结构如CNN、方法如新的激活函数。
CNN:卷积神经网络,使用了局部感受野和权值共享,使得参数数量以数量级减少。
RNN:循环神经网络,在基础的神经网络上,添加向自身和向后传递。从而可以在时间序列上建模。(LSTM)