![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
皮皮猪QAQ
请你一定不要停下来,成为你想成为的人
展开
-
机器学习之线性回归理解
什么是线性回归?线性回归是在线性模型的基础上一种线性方法。线性方程为Y = wX^T+b线性回归又名最小二乘法,是回归问题最简单也是最经典算法,线性回归可以通过求解均方误差构建损失函数,来寻找参数w和b,使得均方误差也就是损失函数最小,从而求得回归参数w和截距b。线性回归算法没有参数,这是一个优点但也因此可能无法控制模型的复杂程度,从而导致训练时间过长。1.线性方程一个标签y和一个特征...原创 2019-04-10 16:47:12 · 1295 阅读 · 0 评论 -
总结常用机器学习算法的实践场景
在机器学习中我们对常用模型已有初步的了解,那么在实践中成功的应用机器学习模型算法才是更加重要的。而对于何时使用哪一种模型效果会更好,对此我做出的一些简单总结1.KNN (k近邻)适用于小型数据集,knn作为基准模型有很好的效果,但是因为预测性能不佳,导致其适用性的减弱,但是其原理简单,比较容易解释2.线性回归(线性模型)线性模型是一种非常常用的算法,在性能上比较可靠,适用于非常大的数据集,...原创 2019-04-26 10:59:26 · 618 阅读 · 0 评论 -
朴素贝叶斯中拉普拉斯平滑算法
什么情况下我们会使用拉普拉斯平滑算法?当我们在使用朴素贝叶斯算法去解决分类问题时,在训练集上进行训练时我们可以发现有可能出现某些特征的概率P为0的情况,无论是在全文检索中某个字出现的概率,还是在垃圾邮件分类中,这种情况明显是不太合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0,拉普拉斯的理论支撑而拉布拉斯平滑处理正是处理这种情况下应运而生的。拉普拉斯平滑处理思想而我们可以发现如...原创 2019-04-17 19:46:33 · 6377 阅读 · 0 评论 -
机器学习算法评估指标整合和解析
一、分类1.精确率和召回率设A为预测正样本数,B为真实正样本数则,C为所有样本数精确率(Precision):精确率代表预测为正样本中真正为正样本数与预测的正样本数的比值。Precision(A,B)=|A⋂B| / |A|召回率(Recall):是预测为正样本中真正为正阳数占真实正样本数,即召回。Recall(A,B)=|A⋂B| / |B|F1-score:有时我们...原创 2019-04-20 17:39:34 · 757 阅读 · 0 评论 -
机器学习中最小二乘法和逻辑斯蒂回归最大似然估计最小二乘法
最小二乘法在构建线性回归模型时,我们通过最小二乘法获得均方误差(损失函数),我们需要得到均方误差的最小值,从而真实值与假设值的差异也是最小的,所以可以得到最合适的回归系数W。...原创 2019-04-10 12:59:22 · 1590 阅读 · 0 评论 -
机器学习中随机梯度下降算法总结分析
我们为什么要使用梯度下降算法人类都是渐进学习的,不断从错误中纠正自己的认知,这恰巧就是梯度下降算法的思想。梯度下降算法随机选择一个方向,然后每次迈步都选择最陡的方向,直到这个方向上能达到的最低点。梯度下降算法的作用都有哪些?在机器学习中有些算法需要对模型构建损失函数以求得需要的系数,然而在损失函数的计算中,我们可能不能获得最佳方案,而梯度下降算法正是一种对损失函数的优化算法,以便损失函...原创 2019-04-09 20:43:55 · 3442 阅读 · 1 评论 -
逻辑斯蒂回归实现与参数分析
逻辑斯蒂是一种处理二分类的经典算法,在sklearn中我们使用LogisticRegression来实现模型的构建1.C:代表正则化系数的倒数,默认为1,可以调节过拟合,又叫惩罚系数,惩罚系数是对误差的容忍程度,惩罚系数越大对容忍性越底。2.solver:逻辑斯蒂内部使用的优化算法,可取值有:newton-cg、lbfgs、liblinear、sag、saga3.max_iter:代表最大...原创 2019-04-12 22:41:59 · 2517 阅读 · 0 评论 -
机器学习混淆矩阵的原理与使用
什么是混淆矩阵?· 混淆矩阵是一个误差矩阵,通常我们可以通过混淆矩阵来评定监督学习算法的性能。在监督学习中混淆矩阵为方阵,方阵的大小通常为一个(真实值,预测值)或者(预测值,真实值),所以通过混淆矩阵我们更清晰的看出,预测集与真实集中混合的一部分。混淆矩阵可以通过scikit-learn和TensorFlow来实现混淆矩阵可以清晰的反映出真实值与预测值相互吻合的部分,也可以反映出与预测值不...原创 2019-04-16 00:26:18 · 11408 阅读 · 1 评论 -
数据的归一化和标准化处理
我们为什么要进行归一化处理当我们在采集样本与使用样本进行算法预测时,是否发现在数据中某些原创 2019-04-09 19:14:49 · 1787 阅读 · 0 评论 -
KNN(K近邻算法)
knn算法1.knn的优缺点knn又叫k近邻算法,顾名思义k近邻算法突出近邻一词,也就是neighbor,knn算法是一种重预测轻训练的算法,算法的核心在于预测,所以很可能预测过程会非常缓慢,所以在使用knn算法时,对数据的预处理非常重要,因为预测速度过慢所以knn往往不能处理数据特征过多的数据,对于大多取值为0的稀疏矩阵数据集来说,效果尤其不好。2.knn算法参数第一个参数n_neig...原创 2019-04-08 21:00:46 · 3142 阅读 · 0 评论 -
正则化处理
我们为什么要进行正则化处理?在什么情况下我们使用正则化?当我们使用线性回归建模来进行预测时,可能会发生过拟合现象,而正则化正是解决这种过拟合现象而诞生的,在这里我们列举两个正则化方法。1.L2正则化L2 正则化又叫岭回归我们在线性回归中使用最小二乘法来推导w值时,如果m<n,则会导致矩阵不可逆,从而造成过拟合的发生,使得泛化能力下降,为防止这种现象的发生 在均方误差中引入了L1或者 ...原创 2019-04-08 20:59:17 · 1877 阅读 · 0 评论 -
joblib模块实现算法的打包封装与引用
通过sklearn 库对相应算法进行打包成文件通过joblib导入本地算法原创 2019-04-10 21:04:14 · 730 阅读 · 0 评论 -
knn中kd树与球树的实现原理
knn算法的思考我们在使用knn算法时是否会发觉,随着数据量的增加,预测过程会越来越缓慢。在K值的选择过程中是否会消耗过多性能原创 2019-04-24 16:15:36 · 2500 阅读 · 1 评论