机器学习---一基本概念及入门和线性回归

最新推荐文章于 2022-02-24 00:22:23 发布

*Major*

最新推荐文章于 2022-02-24 00:22:23 发布

阅读量442

点赞数

本文链接：https://blog.csdn.net/qq_41375318/article/details/102171754

版权

零讲讲人工智能

人工智能，emmmmm，机器替代人，是一种大趋势，可能目前局限在计算机、数学等领域，学习了解的人限制于教授、大学生等高知识人才，但学的人完全可以感受到，其门槛在降低，全民AI是一种必然趋势

AI的官方定义是：AI is field that studies the synthesis and analysis of computational agents that act intelligently
大概就是机器能够智能的做出行为

AI主要的方向有两种
一种是思考和行为像人
另一种是可以理性的思考和行为
目前，一般我们期望的是后者，来提高生产力

目前火热的机器学习属于AI，而更火热的深度学习属于机器学习
（个人感觉可以分为广义的机器学习和传统的机器学习，分隔界限就是深度学习的火热）

AI适用的范围，几乎所有领域

一基本概念

１.１监督学习与无监督学习

最主要的区别是有没有标签

１.１.１监督学习：D=(X,y) 学习X->y的关系
我们想模型学习什么样的关系呢，如果想学习线性关系就采用线性模型；非线性关系就采用非线性模型；
D表示样本数据 X表示特征 y表示标签
常见算法：
1.线性归回
2.逻辑回归（建立在线性回归之上，解决分类问题）
3.朴素贝叶斯（文本分类）
4.决策树（条件）
5.随机森林（和决策树相关，把所有专家的答案综合考虑一下）
6.SVM（最难的算法）
7.神经网络（最根本的基础）

１.１.２无监督学习：D(X)寻找X中的特征或规律代表：聚类算法
学不到映射关系
常用无监督学习算法：
１.PCA（降维算法，将高纬的数据映射到低维的空间，降噪、去无用信息，将数据可视化）
２.K-means（聚类算法）
３.GMM (类似于k-means ,k-means是GMM的特例)
４.LDA （抽取主题特征的模型）

１.２　回归与分类问题

主要区别是预测值的形式

１.２.１回归问题：输出的连续性值，比如温度、身高和气温

１.２.２分类问题：输出的定性输出，比如天气的阴晴、人的好坏，文本分类、图片识别　其间是没有大小关系的

１.３　数据的特征、样本和标签
特征和标签很容易理解
什么是样本，其实就是特征加标签，其数量和标签数相同

１.４　训练数据和测试数据
解释的想法都没有

１.５　机器学习的建模流程
流程：
DataSource－－＞数据预处理－－＞特征工程－－＞建模－－＞验证
一般花大量时间在数据预处理和特征工程（提取出有价值的特征）
特征工程结束后，特征一般被做成张量的形式，以便输入模型，建模
（检测哪个模型好，调参，改造，调参．．．），验证（也很重要，重要的是验证的指标－－评估标准）

如何解决甚至跳过特征工程是机器学习最大的挑战和难题，才有了深度学习的抬头

建模技巧：数据可视化，建模以前要对样本数据进行透彻的了解
如何可视化：１.没有办法，特征太多　２.　降维（PCA）　３.对每一个特征分别进行可视化，发现他们之间的联系

为什么要将数据可视化，是为了发现数据的特点，从而更好的建模。
发现数据的特点很重要，发现数据的特点很重要，发现数据的特点很重要，发现数据的特点很重要，发现数据的特点很重要，发现数据的特点很重要，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化，所以重视可视化。

数据探索(data exploration)阶段我们通过数据可视化，试图从直观的角度来查看数据的特性，比如数据的分布是否满足线性的？数据中是否包含异常值？特征是否符合高斯分布等等

为什么分析数据呢，因为要查看数据符合什么特性，符合什么分布（，早期的机器学习、人工智能是统计学开的，惊不惊讶，没有计算机人的事）然后采取什么模型。

再怎么强调分析数据，也不过分

（PS：一篇好的论文，也强调对实验结果的分析，特别是对评估标准的分析）

一些基础概念：
１.交叉验证
２.特征缩放
３.降维
４.介绍一些图片的基础特征概念
５.缺失值的处理
６.特征编码技术
７.复杂度分析
８.交叉熵及其目标函数
９.随机梯度
１０　什么是过拟合
１１.模型的泛化以及过拟合
１２.L１与L２正则
１３.正则和最大后验概率
１４.深度学习中评价指标：准确率、精确率、召回率、 F-1 Score、ROC、AUC、MAE
１５.特征选择常用算法

https://blog.csdn.net/wangdong2017/article/details/82226763

１６.．生成模型和判别模型
https://blog.csdn.net/u010358304/article/details/79748153

１７.不确定性和信息增益
１８.对于连续性特征的处理
１９.评估标准　准确率
２０.特征工程技术
https://blog.csdn.net/hellozhxy/article/details/82686572
２１.基于残差的训练方式
２２.不平衡样本的处理
２３.ROC与AUC
２４.聚类算法的评估标准
２5.数字化营销场景
26.RFM模型和用户分层
２７.层次聚类与交叉验证
２８.从上到下和从下到上的层次聚类
２９.层次聚类与距离计算
３０.协同过滤
３１.隐变量模型与矩阵分解算法
３２.矩阵分解的优化问题
３３.各种激活函数

二实战阶段

１．简单线性回归模型测试
２.　KNN最邻近算法

3.线性回归
4.逻辑回归
5.正则
6.朴素贝叶斯
7.决策树
8.随机森林
9.提升树
10.K-means
11.层次聚类
12.协同过滤
13.ＳＶＭ
１４．神经网络

什么是广义线性模型
指数族分布即为广义线性模型的概率分布

线性回归什么是最重要的，是目标函数（损失函数）

为什么说损失函数很重要，因为我们采用的是梯度下降法，必须要保证下降至最低点，由最小二乘法确定的损失函数，经过数学论证，可以确保达到最低点。

由最小二乘法得出的损失函数，经过数学证明可以直接通过公式得出其最优的参数

经过对线性回归的学习，一般人都会有一种普遍错误（夸张了一点，应该是很片面）的直觉认知，那就是认为

线性回归模型假设输入数据和预测结果遵循一条直线的关系

如下图所示：
自变量（特征 x）和因变量（结果 y）的关系是一条直线
在这里插入图片描述
对线性含义要理解的透彻需要从其定义入手：
线性函数的定义是：多元一阶（零）多项式
我们最熟悉的就是，只有一个变量的单项式，f(x) = a + bx，这就直接导致了我们对线性相关的理解为一条直线，
实际上线性函数的一般定义为：
在这里插入图片描述

在二维平面上由x、y轴组成

由泰勒公式
在这里插入图片描述
可知如果输入一元参数标量x,那么一元多阶多项式可以表示在二维平面上的任意函数，即任意曲线。

接下来就是比较骚的操作：

一元多阶多项式可转化为多元一阶多项式

在这里插入图片描述

一般的线性函数是这样的：
图1：

对线性函数含义有了一定的理解后就是要对 线性回归模型 要理解清楚

线性回归模型是：利用线性函数对一个或多个自变量和因变量（y）之间的关系进行拟合的模型。

即输入数据进过线性函数后的输出要与真实值接近，如果接近的好，就是好的线性回归模型，即好的线性函数，否则就是差的模型。

假设在进过输入数据训练以后，我们得出系数为【1000，100，20，5，-5，-2，9，-250，253】的线性模型函数：
y=1000X₁+100X₂+20X+₃+5X₄-5X₅-2X₆+9X₇-250X₈+253
（即图1所示：）
如果与真实数据的拟合情况如下图所示，即是好模型：
在这里插入图片描述
如果与真实数据的拟合情况如下图所示，即是坏模型：

具体衡量标准即为cost function(衡量真实值和预测值之间的差距，差距小就是好模型)

…
我就没想过讲这么细！！！
…

什么是线性回归？
线性回归就是通过线性函数输出一个值，值的大小不固定

以下是比较重要的，线性回归的目的是什么？
线性回归的目的就是是构建一个好的线性模型，就是构建一个好的线性函数，就是要得到好的系数，就是要有一个好的输出值。

以达到现实生活中的想要结果，比如通过输入数据，得出你将来的身高;输入数据，得出你将来的工资;输入数据，得到你的另一半会有多高。

*Major*

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习---一基本概念及入门和线性回归

（本文结合西瓜书和机器学习极简入门而写，且本文极其不严谨，只求快，有很多错误，请温柔指出，多说敬语）经过对线性回归的学习，一般人都会有一种普遍错误（夸张了一点，应该是很片面）的直觉认知，那就是认为线性回归模型假设输入数据和预测结果遵循一条直线的关系如下图所示：自变量（特征 x）和因变量（结果 y）的关系是一条直线对线性含义要理解的透彻需要从其定义入手：线性函数的定义是：多元一阶（零）...
复制链接

扫一扫