一、人工智能
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。(机器学习是人工智能的基础,是人工智能的必经之路)
二、机器学习
机器学习(即Machine Learning)涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。目的是让计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断完善自身的性能。简单来讲,机器学习就是人们通过提供大量的相关数据来训练机器。
三、机器学习方式
3.1 有监督学习
有监督学习:如果训练样本带有标签即为有监督学习,即通过已有的训练样本(即已知数据以及其对应的输出)来训练网络从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的。那么这个模型也就可以对未知数据进行分类。
标签:标签是要预测的事物,即简单线性回归中的y变量。有时根据数据是否有标签,也把数据分为有标签数据和无标签数据。
3.2 半监督学习
半监督学习:如果训练样本部分有标签,部分无标签则是半监督学习。半监督学习在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比,使用训练集的模型在训练时可以更为精准,而且训练成本更低。
3.3 无监督学习
无监督学习:如果训练样本全部无标签,则是无监督学习。例如聚类算法,详细地讲,就是根据样本间的相似性对样本集进行聚类试图使类内差距最小化,类间差距最大化。
3.4 强化学习
强化学习:强化学习是智能体(Agent)通过与环境进行交互获得的奖项来指导自己的行为,最终目标是使智能体获得最大的奖赏。
与监督学习不同的是,强化学习中由环境提供的强化信号是对产生动作的好坏做一种评价,而不是告诉强化学习系统如何去产生正确的动作。
3.5 迁移学习
迁移学习:迁移学习是运用已存有的知识或者数据对不同但有关联的领域问题进行求解的机器学习方法。主要目的是通过迁移已有的知识或者数据来解决目标领域中有标签样本数据比较少甚至没有的学习问题。
四、数据集
数据集(样本集):一组数据的集合被称为一个“数据集”。其中每一条单独的数据,是关于一个事件或对象的描述,称为一个“样本”或“示例”。
- 训练集:帮助我们训练模型。简单的说就是通过训练集的数据让我们确定拟合曲线的参数。它是总的数据集中用来训练模型的部分。根据数量的大小,通常只会取数据集中的一部分来当训练集。
- 测试集:为了测试已经训练好的模型的精确度,用来测试、评估模型泛化能力的部分,不会用在模型训练部分。
- 验证集:也叫做开发集,用来做模型选择,即做模型的最终优化及确定的,用来辅助我们的模型的构建,即训练超参数,可选;也是比较特殊的一部分数据,主要为了防止训练出来的模型只对训练集有效,也是用来调整模型具体参数的,不参与训练。
五、维度与降维
1. 维度:维度指的是样本的数量或特征的数量,一般无特别说明,指的是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。
- 对于数组和Series(是Pandas库中的一个数据结构)来说,维度就是方法shape返回值的长度。
- 对图像来说,维度就是图像中特征向量的数量。
2. 降维:机器学习中的“降维”,指的是降低特征矩阵中特征的数量。降维的目的是为了让算法运算更快,效果更好或者是为了更好的数据可视化。
六、过拟合与欠拟合
1. 过拟合:是指创建的模型与训练数据非常匹配,过分依赖训练数据,在训练集上表现好,但是在测试集上效果差,也就是说在已知的数据集和中非常好,但是在添加一些新的数据进行来训练效果就会差很多,造成这样的原因是考虑因素太多,超出自变量的维度过多。通常具有低偏差和高方差,以至于模型无法对新数据进行正确的预测。
2. 欠拟合:欠拟合是指创建的模型与训练数据匹配不完全,即未能很好地学习训练数据中的关系,模型拟合不够,在训练集上表现效果差,没有充分的利用数据,预测的准确度低,通常具有高偏差和低方差,以至于模型不能很好地预测新数据。
参考文献:《机器学习》周志华