![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法
文章平均质量分 60
熙仪繁华
这个作者很懒,什么都没留下…
展开
-
spark跟pycharm整合 ——问题解决
看到python解释器问题我们这里使用的python解释器是3.8版本修改成虚拟环境中的3.6版本。1下载hadoop-2.5.2按txt文件拷贝问价。2.创建项目hellosparkstudy。运行报错显示没有发现spark_home。将SPARK_HOME添加到运行的环境变量中。错误1解决配置HADOOP_HOME解决。1.下载spark文件夹解压。2配置HADOOP_HOME。3.配置(模块所在的位置)4编写spark程序测试。...原创 2022-07-27 16:08:11 · 362 阅读 · 0 评论 -
机器学习算法24 xgboost安装
直接运行命令python-mpipinstall--upgradepip。成功后再安装xgboost即可。有时候需要升级pip。原创 2022-07-26 08:59:40 · 1221 阅读 · 0 评论 -
机器学习算法23 决策树到集成学习思想(04_adaboost实践:Adaboost在sklearn中的调用)
1 Adaboost在sklearn中的调用,import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import AdaBoostClassifierfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import make_gaussian_quantiles# Construct datasetX1, y1原创 2022-01-24 23:56:19 · 702 阅读 · 0 评论 -
机器学习算法23 决策树到集成学习思想(03 _Adaboost: 获取基础模型,错误率&权重错误率定义,计算基础模型权重α的方法 )
钱钱钱原创 2022-01-24 19:57:51 · 1405 阅读 · 0 评论 -
机器学习算法23 决策树到集成学习思想(02随机森林代码实战)
from sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.datasets import load_irisiris=load_iris()X=iris.data[:,:2] #花萼长度和宽度y=iris.targetX_train,X.原创 2022-01-24 08:28:18 · 202 阅读 · 0 评论 -
机器学习算法23 决策树到集成学习思想(01集成学习_随机森林思想)
...原创 2022-01-22 13:59:14 · 297 阅读 · 0 评论 -
机器学习算法22 决策树到集成学习思想(07 决策树算法实列:代码回归树,决策树深度探索 )
import numpy as npfrom sklearn.tree import DecisionTreeRegressorimport matplotlib.pyplot as pltN = 100x = np.random.rand(N) * 6 - 3y = np.sin(x) + np.random.rand(N) * 0.05print(y)x = x.reshape(-1, 1)print(x)dt_reg = DecisionTreeRegressor(cri.原创 2022-01-22 13:27:26 · 87 阅读 · 0 评论 -
机器学习算法22 决策树到集成学习思想(06 决策树算法实列:决策树分类鸢尾花数据集,特征权重、决策树深度探索 )
1. 概述结合sklearn官网 了解决策树的使用流程:官网地址:1.10. Decision Trees — scikit-learn 1.0.2 documentation2.原创 2022-01-22 10:22:49 · 1520 阅读 · 2 评论 -
机器学习算法22 决策树到集成学习思想 (05 绘制决策树模型的graphvis window安装)
目录1 概述:2. graphvis 下载 安装2.1 graphvis下载2.2 graphvis安装1 概述:目的:采用graphvis工具将决策树这个模型进行可视化步骤1. 调用skearn api将决策树模型转化为.dot文件步骤2:采用graphvis工具将.dot文件数据进行可视化2. graphvis 下载 安装2.1 graphvis下载下载地址:https://graphviz.org/download/将下载的安装包放置到 ..原创 2022-01-21 15:29:50 · 586 阅读 · 0 评论 -
机器学习算法22 决策树到集成学习思想(04 经典决策树算法 ID3和C4.5比较,CART)
1 ID3和C4.5比较ID3(Iterative Dichotomiser 3,迭代二叉树3代)由Ross Quinlan于1986年提出。1993年,他对ID3进行改进设计出了C4.5算法。我们已经知道ID3与C4.5的不同之处在于,ID3根据信息增益选取特征构造决策树,而C4.5则是以信息增益率为核心构造决策树。既然C4.5是在ID3的基础上改进得到的,那么这两者的优缺点分别是什么?使用信息增益会让ID3算法更偏向于选择值多的属性。信息增益反...原创 2022-01-21 15:06:49 · 1392 阅读 · 0 评论 -
机器学习算法 22 决策树算法到集成学习思想(03 决策树停止分裂的条件(防止过拟合的方法:剪枝),决策树的优缺点)。
目录1 概述(解决的问题):2 前剪枝:2.1 scikt-learn决策树创建方法:2.2 scikt-learn中的前剪枝方法:给出了7种3 后剪枝:实际使用不会使用后剪枝3.1 常见三种后剪枝方法:4 决策树优缺点4.1 优点:4.2 缺点:1 概述(解决的问题):如果选用了决策树算法,然后在生成决策树的过程中不做任何限制,那么学出来的这颗 树很深,很容易出现过拟合。本章主要介绍防止过拟合的方法:剪枝(前剪枝 后剪枝),以及对决策树的优缺点...原创 2022-01-21 14:07:01 · 714 阅读 · 0 评论 -
机器学习算法 22 决策树算法到集成学习思想(02 决策树常用的分裂条件基尼系数Gini、信息增益、信息增益率、MSE )
1 总结:决策树的生成说白了就是数据不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一边,当树的叶子节点的数据都是一类的时候,则停止分裂2 分割的条件问题:分割的条件是什么?如下图所示,那种分割方式更好:怎样衡量?纯度2.1 常用分裂条件:对于分类问题: 常用的分割条件有 Gini系数,信息增益 信息增益率;分割的好坏一般采用 纯度进行度量。对于回归问题:常用的分割条件是MSE2.1.1 Gini系数(CART) 基尼系数是指国际上通用的、.....原创 2022-01-19 22:16:39 · 2486 阅读 · 0 评论 -
机器学习算法 22 决策树算法到集成学习思想(01决策树的数学表达 )
1 决策树:1.1 特点决策树是属于有监督机器学习的一种,起源非常早,符合直觉并且非常直观,模仿人类做决策的过程,早期人工智能模型中有很多应用,现在更多的是使用基于决策树的一些集成学习的算法。这章我们把决策树算法理解透彻非常有利于后面去学习集成学习。...原创 2022-01-18 22:56:34 · 353 阅读 · 0 评论 -
机器学习算法 09—05 Tensorflow代码实现Softmax回归_模型的保存与加载_模块化_代码实现DNN对手写数字进行识别
1. 理解Placeholder总结:shape指定所要传入数据的类型dtype=tf.float32 将int类型转为浮点型 将“4” 数值字符串转为浮点型2.Tensorflow实现Softmax回归多分类一般使用交叉熵损失函数:公式实现流程 精度求解3. 模型的保存与加载...原创 2022-01-15 17:52:48 · 382 阅读 · 0 评论 -
机器学习算法 09—04 tensorFlow 自动求导实现线性回归,使用优化器求最优解 分轮次分批次随机的求解
1 自动求导gradients=tf.gradients(mes,[theta])[0] #重点要了解的内容import tensorflow as tfimport numpy as npfrom sklearn.datasets import fetch_california_housingfrom sklearn.preprocessing import StandardScalern_epochs=10000learning_rate=0.01housing=fetc.原创 2022-01-15 16:26:12 · 388 阅读 · 0 评论 -
机器学习算法 09-02 TensorFlow核心概念 TensorFlow基础代码、TensorFlow线性回归解析解和BGD求法
核心概念 TensorFlow中的计算可以表示为一个有向图(Directed Graph) 或者称计算图(Computation Graph) 其中每一个运算操作(operation)将作为一个节点(node) 计算图描述了数据的计算流程,也负责维护和更新状态 用户通过python,c++,go,Java语言设计这个这个数据计算的有向图 计算图中每一个节点可以有任意多个输入和任意多个输出 每一个节点描述了一种运算操作,节点可以算是运算操作的实例化(in原创 2022-01-12 21:41:04 · 679 阅读 · 0 评论 -
机器学习算法 09 _01_理解神经网络_激活函数_网络拓扑_优化算法
0 几个概念:激活函数:将神经元的静输入信号转换成单一的输出信号,以便进一步在网络中传播网络拓扑:描述了模型中神经元的数量以及层数和他们的连接的方式。训练算法:指定如何设计连接权值重,以便抑制或增加神经元在输入信号中的比重。在一个神经网络里一般每一层的激活函数都是一样的,相同层一定一样。1 激活函数:1.1 激活函数1. Thrs1.2 hold2. Sigmoid3. Linear4.Saturated Linear5 HyperBolic Ta..原创 2022-01-10 20:44:17 · 607 阅读 · 0 评论 -
机器学习算法 08 聚类探索(06_单一高斯分布的参数估计_GMM的似然函数,GMM的计算流程)
目录1 概率公式回顾:2 如何估计高斯分布的参数?高斯分布的似然函数求似然公式最大-取对数3关于高斯分布4高斯混合模型的参数估计 GMMGMM模型的似然函数:第一步:估计数据来源于哪个分布第二步:估计每个分布的参数5 GMM的计算流程:1 概率公式回顾:2 如何估计高斯分布的参数?• 给定一组样本 X1,X2,…XN, 已知们来自于高斯分布N(μ,σ),如何估计μ,σ。• 将X的取值带入f(x) 得到每个x取值的概率表达形式(带着μ,σ...原创 2022-01-09 13:27:36 · 452 阅读 · 0 评论 -
机器学习算法08 聚类探索(05谱聚类、kmean聚类压缩图片 pickle保存模型)
目录谱聚类谱聚类的特点谱聚类整体思路构图相似度矩阵根据构图方式计算W矩阵计算D矩阵和拉普拉斯矩阵切图切图目的Ratia Cut分图方法谱聚类探索聚类跟图片数据探索:保存模型谱聚类谱聚类的特点 • 1.对数据的结构没有假设(适应性广)• 2 经过特殊的构图处理后计算很快 • 3.不会像kmeans一样将一些离散的小簇聚在一起• 1.对于不同的构图方式比较敏感 • 2.对于超参数设置比较敏谱聚类整体思...原创 2022-01-08 23:44:08 · 735 阅读 · 0 评论 -
机器学习算法 08 聚类探索(04 K-means聚类算法的探索,层次聚类概念,密度聚类-DBSCAN探索)
K-means聚类算法的探索import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasets as dsimport matplotlib.colorsfrom sklearn.cluster import KMeans,MiniBatchKMeansdef expand(a,b): d=(b-a)*0.1 return a-d,b+dif __name__ == '__main__':.原创 2022-01-08 22:47:12 · 420 阅读 · 0 评论 -
机器学习算法 08 聚类(02 03 K-means聚类)
聚类 • 将N个样本映射到K个簇中 • 每个簇至少有一个样本基本思路: • 先给定K个划分,迭代样本与簇的隶属关系,每次都比前一次好一些• 迭代若干次 就能得到比较好的结结果K-means • 算法步骤: •(1) 选择K个初始的簇中心 • 怎么选?(随机初始k个中心点)• (2)逐个计算每个样本到中心的距离,将样本归属到距离最小的那个簇中心 的簇中 ...原创 2022-01-08 20:59:23 · 1297 阅读 · 0 评论 -
机器学习算法 08 聚类(01 聚类的本质_求相似度方式_余弦距离)
聚类和降维是机器学习无监督问题的一类任务:一 聚类的常见用途 • 知识发现 发现事物之间的潜在关系 通过聚类:发现样本之间的相似性,也就是分组。• 异常值检测 首先对样本进行聚类分组以后,我们即可求出各组的中心点,如果一个新的样本距离各中心点都比较远,那么我们就可以定义为它为异常值。• 特征提取 数据压缩的例子特征提取:假设我们已经将原有数据集进行了聚类,那么我们就可将聚类后的类ID当成一个新的维度,作为特征。数据压缩:图片处理重将聚类后的结果当...原创 2022-01-08 12:51:40 · 1083 阅读 · 0 评论 -
机器学习算法 _07 逻辑回归
推到省略:鸢尾花数据集采用逻辑回归进行分类:from sklearn.datasets import load_iris #导入数据集模块from sklearn.linear_model import LogisticRegression #导入逻辑回归算法类from sklearn.model_selection import train_test_split #导入数据分割方法from sklearn.metrics import accuracy_sco原创 2022-01-02 21:28:17 · 747 阅读 · 0 评论 -
机器学习算法 _06 多项式回归
11原创 2022-01-02 20:32:23 · 758 阅读 · 0 评论 -
机器学习算法 05 归一化和正则化 &房价预测案列
一 理解归一化:梯度的求导公式:通过这个公式我们可以发现:theta j的梯度 与第j列的特征值相关,成正比。如果这一列的特征值约大,那么这一列的梯度就越大,梯度越大更新下降的就越快,越容易达到该方向的最优值。从下面的图中可以看出,theta2 的更新幅度比theta1要大。注意:某个theta达到最优值后,并不不变化了,随着训练的进行,会发生震荡。震荡的产生又增加了训练的次数,为了减小这种现象。我们需要将训练样本进行归一化,来消除量纲不同的影响。归一化方法:min_max sc原创 2022-01-02 20:19:22 · 1072 阅读 · 0 评论 -
机器学习算法_04 梯度下降法概述
概述:前面基于最小二乘法求解的思路是通过给出的样本直接求解析解:那么有没有一种方法,首先先随便给出一条直线,让他慢慢拟合到最优解位置,有:梯度下降法。我们的目标是让目标函数(误差平方和)最小。我们知道目标函数是一个凸函数,极值点,所以基本思想是,给出一个theta 不断调整theta的值,调整到让目标函数最小。原因:上面利用公式求解里面对称阵是N维乘以N维的,复 杂度是是O N的三次方,换句话说,就是如果你的特 征数量翻倍,你的计算时间大致上要2的三次方,8倍 的慢Ø 梯度原创 2022-01-01 22:43:54 · 307 阅读 · 0 评论 -
机器学习算法_03 回归评价指标
MSE:mean_squared_error 误差平方和的平均 越小模型越好MAE:mean_absolute_error 绝对误差和的平均RMSE:MSE的开方sklearn地址:API Reference — scikit-learn 1.0.2 documentationimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection impor..原创 2022-01-01 22:21:29 · 257 阅读 · 0 评论 -
机器学习算法_02 简单线性回归&多元线性回归
简单线性回归:y=wx+b ,只有一个自动变量1 线性回归的损失函数:2 参数求解代码实现:自定义方式求解import numpy as npx=np.array([4,8,5,10,12])y=np.array([20,50,30,70,60])# 模型为 y=wx+b# 训练模型的函数def fit(x,y): """ :param x: 输入数据 :param y:输入数据 :return: w b 系数 ""...原创 2022-01-01 20:56:14 · 524 阅读 · 0 评论 -
机器学习算法_01 KNN算法
"""样本集X=[[1,1],[1,1.5],[2,2],[4,3],[4,4]]y=['A','A','A','B','B']测试样本t=[3,2]设K=3"""import numpy as npimport operatordef knn_class(X,y,test,K): """ :param X: 样本集 :param y:样本类别 :param test:测试样本 :param K: :return: """ .原创 2022-01-01 19:10:13 · 1855 阅读 · 0 评论