机器学习

最新推荐文章于 2022-08-21 22:02:59 发布

时冲

最新推荐文章于 2022-08-21 22:02:59 发布

阅读量727

点赞数 2

分类专栏：大数据机器学习

本文链接：https://blog.csdn.net/scandly_java/article/details/51331981

版权

大数据同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

1   机器学习的子类是深度学习，机器学习的父类是人工智能，核心都是机器学习。
   百度大脑、谷歌大脑等都属机器学习，百度和谷歌数据量都大所以才会有百度大脑谷歌大脑

2   机器学习，我只要有大量数据，我去训练，我就可以训练出一个好的模型，而且这个模型就可以做预测，预测和分类是分不开的

3   机器学习就是拟人
   拟人：
       1 大量已有的数据（经验，存在大脑）
       2 总结出某种规律（模型）根据某种算法，训练出模型
       3 利用此规律，输入新的数据，做出预测
       4 机器学习“数据为王” 要求数据要是大量正确的数据

   历史数据--》训练出模型
   新的数据--》上一个模型 --》预测

4   模式识别=机器学习
   数据挖掘=机器学习+数据库早期只有算法没有数据，所有没有活起来
   统计学习近似等于机器学习
   计算机视觉=图像处理+机器学习
   语音识别=语音处理+机器学习
   自然语言处理=文本处理+机器学习

5   机器学习 ---》数   算法（公式）   模型（参数）
   （根据某种算法：y = a + bx   xy就是训练数据，得出的结果 y = 2 + 3x 这条直线就是一个模型。参数a和b就是模型）
   如果得到的参数比较复杂，比较多，单机装不下，用分布式存储

6   机器学习要干的事情就是用大量数据用分布式的快速的总结规律，很多时候还要实时的计算模型

7   数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、
   时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力
8   R语言和python 是第一代的机器学习的工具，python还可以做更多
   Mahout 是第二代的机器学习工具它是分布式的，是基于mapreduce的
   MLlib 是第三代它是基于 spark进行运算
   机器学习里的算法，它的算法实现的时候都是需要的迭代的
9   R语言
   主要用于统计分析、绘图、数据挖掘
   内置多种统计学及数字分析功能。R的功能也可以通过安装包（Packages，别人撰写的功能）增强。
   R的另一强项是绘图功能

10   编程 = 数据结构 + 算法数据结构：数据类型
   R语言的数据机构包含：向量，因子，列表，数组，数据框，矩阵

11   线性回归
   y = a + bx
   多元线性回归：它是一种算法那么它对应的公式是
   y =m + A1X1 + A2X2 + A3X3 + A4X4 + A5X5 + A6X6 + .... AnXn 它易于分布式
   一个维度对应一个模型
   逻辑线性回归是线性回归经过数学上公式的转换，把y值进行缩放，缩放到0到1之间，那么它有一个好处，就是得到一个比例（概率）的事情
   线性回归和逻辑回归统称为广义线性回归


   error 值最小


12   相关系数它来表达两个维度的相关性，的范围是-1~+1 正相关和负相关 0表示根本就不相关
   R语言来探索相关性，R语言的一些函数协方差函数cov()，标准方差函数sd()，可以求出来cor()

13   我越了解现实中的数据，越有利于改进模型

14   神经网络复杂的多个层次的神经网络就叫深度学习

15   网络拓扑层--单层网络   多层网络

15 案例1 保险的消费用多元线性回归来做
   案例2 计算水泥的强度系数用神经网络来做 1个输入层 1个隐藏层 1一个输出层