1.人工智能
是研究、开发用于模拟、延申和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学。人工智能主要包括机器学习,计算机视觉等领域。
2.机器学习
是人工智能的核心,是使计算机具有智能的根本途径。使用计算机作为工具并致力于真实、实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。该领域的研究包括机器人、语言识别,自然语言处理,图像识别专家系统等。
3.深度学习
是机器学习领域中一个新的研究方向。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
4.强化学习
又称再励学习或评价学习,常见模型是标准的马尔可夫决策过程,属于无监督学习。用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
5. 监督学习与无监督学习
主要看给定的数据集是否带有数据标签。监督学习是传统机器学习方式,无监督学习常见于聚类和强化学习。
6.机器学习
算法线性回归、逻辑回归、K-近邻算法、 决策树算法、朴素贝叶斯、支持向量机、K-Means算法、PCA算法、协同过滤算法、BP神经网络、卷积神经网络等等。
7.线性回归
是指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,通过建立一个回归方程来估计特征值对应的目标变量的可能取值。最常见的是线性回归方程:y=ax+b。
8.线性回归的求解过程
设方程 f(x)=θ0 x0 +θ1 x1 +θ2 x2…+θn xn 线性回归的求解过程就是求解回归系数(θ0 θ1 θ2 …… θn )的过程,并且使误差最小。其中使用损失函数来表示模型误差,采用梯度下降算法来寻找损失函数的最小值,也就是误差最小值。
9.过拟合问题
是指为了得到一致假设而使假设变得过度严格,从而丧失一般性的现象。当回归方程中有过多变量,同时只有非常少的训练集时,就会出现过度拟合的问题,所以可以通过控制关键变量数目来达到避免过拟合的效果。
10.正则化解决过拟合问题
对模型添加正则化可以限制模型的复杂度,使得模型在复杂度和性能间达到平衡。L1和L2正则化可以看作损失函数的惩罚项,所谓的惩罚就是损失函数中的某些参与加以限制。
11.逻辑回归
虽然名字叫回归,但却属于分类算法,是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中,预估事件出现的概率并分类。Sigmoid 是归一化的函数,可以把连续数值收敛至[0,1]的范围,提供了一种将连续型的数据离散化为离散型数据的方法。
12.线性回归和逻辑回归的比较
虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层signoid函数(非线性)映射,即先把特征线性求和,然后使用 sigmoid函数来预测。
13.K-近邻算法
用距离度量各相邻的分类标签,然后取前K个最近的分类标签,求得这K个分类标签中出现频率最大的类别,可近似将该类别作为待预测目标的类别。
14.决策树
通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。决策树可细分为分类决策树和回归决策树,分别用于做分类任务和回归预测任务。
15.信息熵
表示的是数据中包含的信息量大小。熵越小,样本的纯度越高,所以决策树的生长过程也是不断的将数据的不纯度降低的过程,希望最后得到的分类结果纯的很高,也就是准确性很高。
16.分类决策树算法
ID3 使用信息增益作为选择特征的准则,信息增益=划分前滴-划分后熵;C4.5使用信息增益比作为选择特征的准则,信息增益比=信息增益/划分前熵。之所以引入了信息增益比,是由于信息增益的一个缺点。信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项,解决了这个问题。