机器学习
文章平均质量分 72
顾十方
这个作者很懒,什么都没留下…
展开
-
PCA主成分分析
Sklearn中的降维算法PCA和SVDclass sklearn.decomposition.PCA (n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, iterated_power=’auto’, random_state=None)二维数据的降维重要参数:n_components案例:import numpy as npimport matplotlib.原创 2021-09-16 17:37:02 · 1319 阅读 · 1 评论 -
使用Sklearn进行特征工程
sklearn中的数据预处理和特征工程:数据预处理数据无量纲化from sklearn.preprocessing import MinMaxScalerdata = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]#不太熟悉numpy的小伙伴,能够判断data的结构吗?#如果换成表是什么样子?import pandas as pdpd.DataFrame(data)# 0 1#0 -1.0 2#1 -0.5 6#2 0.0.原创 2021-09-15 19:55:30 · 445 阅读 · 0 评论 -
随机森林原理及使用
集成算法Sklearn中的集成算法sklearn中的集成算法模块ensembleRandomForestClassifierclass sklearn.ensemble.RandomForestClassifier (n_estimators=’10’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_frac原创 2021-09-15 16:40:41 · 1242 阅读 · 1 评论 -
决策树原理及使用
1.树模型和线性模型的区别树形模型是一个一个特征进行处理线性模型是所有特征给予权重相加得到一个新的值2.什么是决策树所谓决策树,就是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个特征的测试,树的分支代表该特征的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层是就是根节点。下图即为一个决策树的示意描述,内部节点用矩形表示,叶子节点用椭圆表示。3.学习过程**特征选择:**特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选原创 2021-09-14 19:15:42 · 14669 阅读 · 0 评论 -
神经网络前向传播和反向传播公式推导(公式+图解)
以如下的预测是否是猫的双层神经网络为例进行公式推导:符号注解:n_x : 输入特征的数量n_h : 隐藏层的节点数量n_y : 输出层的节点数量m : 样本数量W :权重矩阵b :偏置项(由于很多符号不好手打,我就直接在接下来的纸上推导顺便解释 0.0)前向传播:反向传播:更新参数:部分偏导我全用导数代替了,不影响最终结果。字有...原创 2020-04-13 21:37:31 · 2656 阅读 · 0 评论 -
对数几率回归分析(逻辑回归)
前言:引入周志华《机器学习》书中对数几率统计中的理论和吴恩达深度学习系列结合自己理解的内容。应用场景:逻辑回归是一个应用于二分类的算法。其输出标记为,而线性回归模型所产生的预测值是实数,于是将实值z转化为0/1值,如果预测值大于0则标记为1,反之则标记为0.逻辑回归的假设函数(Hypothesis function): 值为预测值 更正式的说是表示y等于1的可能性或机会 ...原创 2020-04-06 16:35:01 · 1847 阅读 · 0 评论 -
梯度下降算法详解
梯度下降算法详解介绍 如果说在机器学习领域有哪个优化算法最广为认知,用途最广,非梯度下降算法莫属。梯度下降算法是一种非常经典的求极小值的算法,比如在线性回归里我们可以用最小二乘法去解析最优解,但是其中会涉及到对矩阵求逆,由于多重共线性问题的存在是很让人难受的,无论进行L1正则化的Lasso回归还是L2正则化的岭回归,其实并不让人满意,因为它们的产生是为了修复此漏...转载 2020-03-19 20:48:33 · 634 阅读 · 0 评论 -
回归算法之波士顿房价预测
线性回归(linear regression)最小二乘法多元线性回归(含有多个特征值)多元线性模型:(正规方程)损失函数(误差大小)梯度下降我们以单变量中的w0,w1为例子:学习率表示预测模型的斜率,即函数下降的速率理解:沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新W值使用:面对训练数据规模十分庞大的...原创 2020-03-17 15:06:52 · 2219 阅读 · 0 评论 -
决策树之泰坦尼克号生存分类
决策树算法介绍以对世界杯球队冠军预测为例,若有32只队伍,如果采用二分法进行预测,最多需要5次才可以得出冠军队伍32支球队,log32=5比特64支球队,log64=6比特信息熵“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是:H = -(p1logp1 + p2logp2 + ... + p32log32)H的专业术语称之为信息熵,单位为比特。...原创 2020-03-14 14:01:43 · 928 阅读 · 0 评论 -
朴素贝叶斯算法之fetch_20newsgroups案例
数据下载使用sklearn下载速度会非常缓慢,建议使用先用百度网盘下载后,再按照网上教程进行操作即可获得数据。链接:https://pan.baidu.com/s/1xjF1O6s_sL44psOqnsx6Iw提取码:3hxn复制这段内容后打开百度网盘手机App,操作更方便哦朴素贝叶斯算法朴素贝叶斯算法特点是假设所有特征的出现相互独立互不影响,每一特征同等重要库导入f...原创 2020-03-12 20:33:00 · 3869 阅读 · 0 评论 -
KNN之iris鸢尾花数据集的分类
鸢尾花数据集导入库from sklearn.neighbors import KNeighborsClassifierfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import Standa...原创 2020-03-12 14:06:13 · 2562 阅读 · 2 评论