什么是机器学习?
人工智能(Artificial intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是一个笼统而宽泛的概念,人工智能的最终目标是使计算机能够模拟人的思维方式和行为。大概在上世纪50年代开始兴起,但是受限于数据和硬件设备等限制,当时发展缓慢。
机器学习(Machine learning)是人工智能的子集,是实现人工智能的一种途径,但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。大概在上世纪80年代开始蓬勃发展,诞生了一大批数学统计相关的机器学习模型。
深度学习(Deep learning)是机器学习的子集,灵感来自人脑,由人工神经网络(ANN)组成,它模仿人脑中存在的相似结构。在深度学习中,学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。大概在2012年以后爆炸式增长,广泛应用在很多的场景中。
机器学习核心技术
分类:应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。
聚类:从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。
异常检测:对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。
回归:根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。
机器学习基本流程,机器学习工作流(WorkFlow)
数据预处理(Processing):
输入(未处理的数据 标签)→
处理过程(特征处理幅度缩放、特征选择、维度约减、采样)→
输出(测试集 训练集)。
模型学习(Learning):模型选择、交叉验证、结果评估、超参选择。
模型评估(Evaluation):了解模型对于数据集测试的得分。
新样本预测(Prediction):预测测试集。
机器学习基本名词
监督学习(Supervised Learning):训练集有标记信息,学习方式有分类和回归。
无监督学习(Unsupervised Learning):训练集没有标记信息,学习方式有聚类和降维。
强化学习(Reinforcement Learning):有延迟和稀疏的反馈标签的学习方式。
示例/样本:上面一条数据集中的一条数据。
属性/特征:「色泽」「根蒂」等。
属性空间/样本空间/输入空间X:由全部属性组成的空间。
特征向量:空间中每个点对应的一个坐标向量。
标记:关于示例结果的信息,如((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜),其中「好瓜」称为标记。
分类:若要预测的是离散值,如「好瓜」,「坏瓜」,此类学习任务称为分类。
假设:学得模型对应了关于数据的某种潜在规律。
真相:潜在规律自身。
学习过程:是为了找出或逼近真相。
泛化能力:学得模型适用于新样本的能力。一般来说,训练样本越大,越有可能通过学习来获得具有强泛化能力的模型。
机器学习算法分类
监督学习:有数据有标签的学习方式
分类预测,统计分类
分类算法:KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型、支持向量机模型等
二分类问题
多类分类
多标签分类
回归分析
回归算法:决策树模型、随机森林分类模型、GBDT模型、回归树模型、支持向量机模型等
《水门桥》票房值
某城市房价的具体值
无监督学习:有数据无标签的学习方式
聚类问题
聚类算法:聚类算法
相似用户挖掘/社区发现
新闻聚类
降维问题
降维算法:PCA降维算法
对高维数据用低维数据进行表达;数据映射
强化学习:有延迟和稀疏的反馈标签的学习方式
Q-leaning
时间差学习
初入机器学习,搞清楚一些基本概念,先进来再找到自己学习的方向;
这是一篇机器学习认识的文章,希望对你有些帮助