YS_20190815_机器学习_02

於斯暮尔

于 2019-08-15 19:35:11 发布

阅读量260

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43190812/article/details/99638169

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习_0815

人工智能的技术体系架构

机器学习的核心思想 -----------------很重点
进行算法讲解（8种人工智能、机器学习的算法）+高数进行数据分析
建立人工智能模型，module
大量的利用数据集进行数据的交易（输入数据）-------通过模型去校验数据的维度《鲁棒性》—通过机器输出到外界！
数据集收集----预测未来
开发一个会聊天的机器人—模仿人类~~~ (卷积神经网络、图像图像处理、自然语言识别)

卷积神经网络：人类大脑如何和机器学习产生联系？ 嵌入式《芯片》—传感器（代表人体神经系统）----机器学习的神经元组织！！
芯片—传感器（代表人的神经）—机器学习的神经元组织----使机器学习的大脑具有（很大的数据仓库）
通过数据集寻找数据输出结果，机器学习适合用来处理复杂的数据集、算法实现起来很复杂的业务。

人工智能的应用场景

个性化推荐：个性化指的是根据各种因素来改变用户体验和呈现给用户内容，这些因素可能包含用户的行为数据和外部因素；推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。 :
精准营销：从用户群众中找出特定的要求的营销对象。
客户细分：试图将用户群体分为不同的组，根据给定的用户特征进行客户分组。
预测建模及分析：根据已有的数据进行建模，并使用得到的模型预测将来

数据分析、机器学习、数据挖掘的联系与区别

数据分析：数据分析是指用适当的统计分析方法对收集的大量数据进行分析，并提取"有用的信息"，以及形成"结论"，从而对数据进行详细的“研究”和“概括”过程。在实际工作中，数据分析可帮助人们做出判断；数据分析一般而言可以分为 “统计分析”、 “探索性数据分析”和“验证性数据分析”三大类。
数据挖掘：一般指从大量的数据中通过"算法搜索隐藏"于其中的信息的过程。通常通过"统计"、“检索”、机器学习、"模式匹配"等诸多方法来实现这个过程。
机器学习：将数据分析和数据挖掘整合就是 “数据集”。数据集就是机器学习的核心–数据算法终止~~是数据分析和数据挖掘的一种比较常用、比较好的手段。

机器学习的分类

有监督学习：
用"已知"某种或某些特性的"样本"作为"训练集"，以建立一个"数学模型"，再用已建立的模型来"预测未知样本"，此种方法被称为有监督学习，是最常用的一种机器学习方法。是从"标签"化训练数据集中"推断出模型"的机器学习任务。

重点模型数学模型:

判别式模型 g:x__y 对"联合条件概率p(x|y)"进行建模，----一次函数、二次函数、tan函数、cothans、cos函数…常见判别模型有：线性回归、决策树、支持向量机SVM、k近邻、神经网络等；----重点技术！
生成式模型(Generative Model)：对"联合分布概率p(x,y)"进行建模，—>正态分布、常见生成式模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等；
核心思想：生成式模型关注数据是"如何产生"的，寻找的是"数据分布模型"<p(x,y)>；判别式模型关注的数据的差异性，寻找的是分类面

切记： 由生成式模型可以产生判别式模型，但是由判别式模式没法形成生成式模型-----思想：数据集的采集思想

无监督学习：

无监督学习试图学习或者提取数据背后的数据特征，或者从数据中抽取出重要的特征信息。常见的算法有"聚类"、“降维”、"文本处理(特征抽取)"等。
与监督学习相比，无监督学习的训练集中没有人为的标注的结果，在非监督的学习过程中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。
例如：超市的机器结账机：通过产品的标志直接返回结账信息—节省了很大的人力成本问题！

半监督学习（SSL）：
1. 考虑如何利用"少量"的"标注样本"和"大量的未标注样本"进行"训练"和"分类"的问题，是有监督学习和无监督学习的结合
2. SSL类型的算法主要分为四大类：半监督分类、半监督回归、半监督聚类、半监督降维
3. 算法：分类算法、回归算法（线性回归）、多维、（矩阵）基于线性
4. 缺点：抗干扰能力弱，仅适合于实验室环境，其现实意义还没有体现出来；未来的发展主要是聚焦于新模型假设的产生。

分类2

分类：通过分类模型，将样本数据集中的样本映射到某个给定的类别中
聚类：通过聚类模型，将样本数据集中的样本分为几个类别，属于同一类别的样本相似性比较大
回归：反映了样本数据集中样本的属性值的特性，通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则：获取隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现频率。

算法讲解：

分类决策树算法，决策树的核心算法，ID3算法的改进算法。
C4.5算法：回归算法是基于 C4.5的决策数据集的返回结果 ---------结果是一个维度空间向量的值?list、元组、字典如：{[[1,2],[12,2],[-1,-3]]…}—>数据集
（KNN）K近邻分类算法；如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别，那么该样本也属于该类别。

机器学习、人工智能和深度学习的关系

深度学习是机器学习的子类；
深度学习是基于传统神经网络算法发展到“多隐层”的一种“算法”体现。
深度学习的核心：“多隐层”的一种“算法”体现。

机器学习的开发流程

数据收集
数据来源： 用户访问行为数据、页面数据、业务数据、后台—>Python和java、外部第三方数据 — 接口数据
数据"预"处理：指的是将采集的 "数据集"通过算法，变为满足无监督、有监督、半监督的学习过程数据！
特征提取：根据业务不同：例如：进行人脸识别 —提取？----调用接口（公安系统）----图像识别。例如：去新公司入职：打卡机人脸识别录入信息：示下动作（眨眨眼睛、张张嘴巴（因为张嘴巴会无法识别图像、导致特征无法提取！–将张嘴巴的数据图片特征保存到数据集里面）、摇摇头…）----因为人的全部特征提取不到，尤其是耳朵！证明无法观看！导致数据集缺失！

备注：人工智能是一门整合了很多学科的技术（特征、图像等属于生物；算法属于数学，物理；自然语言处理----语文等）
模型构建 ----上官网看源码案例！
模型测试评估 P
投入使用(模型部署与整合) 迭代优化表示的是数据集完整的交给机器学习处理！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YS_20190815_机器学习_02

机器学习_0815
复制链接

扫一扫

专栏目录

於斯暮尔 CSDN认证博客专家 CSDN认证企业博客

码龄6年

25: 原创

79万+: 周排名

52万+: 总排名

4616: 访问

: 等级

259: 积分

3: 粉丝

3: 获赞

0: 评论

3: 收藏

私信

关注

热门文章

分类专栏

C语言 4篇
Python 12篇
Oracle 3篇
机器学习 2篇
图像 4篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。