十二十二呀-CSDN博客

原创爬取城市拥堵指数-百度地图&高德地图

爬取城市拥堵指数-百度地图&高德地图

2023-06-26 16:04:28 1691 2

原创 O2O优惠券核销-数据分析2.0

O2O优惠券数据分析报告完整版-个人练习

2023-01-31 16:26:22 1523

原创 O2O优惠券核销-SQL实现

将文件导入datagrip中，利用SQL进行数据分析

2023-01-10 22:11:35 827 1

原创 O2O优惠券核销-数据分析1.0

利用Tableau进行数据分析报告实战

2022-12-27 19:18:53 3319

目录一.数据的总体了解1.1 维度：data.shape1.2 类型等基本信息：data.info()1.3 统计信息：data.describe()二.数据的深入了解2.1 数据类型2.1.1分类数据2.1.2数值数据2.2 数据分布：2.2.1分类数据的分布2.2.2离散型数据的分布2.2.3连续型数据的分布三.数据的特殊了解3.1 缺失值3.2 唯一值四.数据的关系了解4.1特征变量与特征变量之间4.2特征变量与目标变量之间一

2022-04-23 20:03:26 3146

原创（五）logistic回归与基于TensorFlow实现鸢尾花二元分类

李航《统计学习方法》第二版学习笔记知识点分类算法属于线性模型其图形是一条S型曲线，单调增，并且定义域是(−∞ ,+∞ )，值域是(0,1) logistics回归比较两个条件概率值的大小，将X分到概率值较大的那一类公式：式1：式2：用线性回归模型的预测结果去逼近真实标记的对数几率 logistics的特点：在logistics回归模型中，输入Y=1的对数几率是输入x的线性函数，所以logistic函数又叫对数几率函数采用梯度下降法对w,b进行更新一.

2022-04-17 14:38:53 1219

原创（八）集成学习之GBDT与python代码实现

学习笔记参考：http://www.dmlearning.cn/single/a5bf33e7b2c44e499a1cb7b2d5f8fbfa.html全英文PPT，但是这是我挣扎几天后看过最通俗易懂的讲解了，打不开可以私聊我。知识点：Gradient Boosting Decision Tree：梯度提升决策树无论是回归还是分类，都是采用CART树策略：会用第K个CART树拟合前K-1个CART树留下的残差，从而不断缩小整个模型的误差但在在更一般的情况下，使用负梯度 better

2022-04-14 20:18:14 2597

原创（八）集成学习之提升树与python代码实现

李航《统计学习方法第二版》学习笔记知识点：提升方法是以分类树或回归树为基分类器的Boosting方法采用加法模型与前向分步算法对分类问题-二叉分类树对回归问题- 二叉回归树加法模型：， M代表树的个数，Θ表示树的参数前向分步算法：，是当前模型通过经验风险最小化确定下一棵决策树的参数Θ：当采用平方误差损失函数时，其损失变为简单拟合残差对于二元分类问题，提升树算法只需将AdaBoost算法中的基本分类器限制为二类分类器例8.2 python代码实现并随便输入x值进..

2022-04-13 15:36:42 769

原创（八）集成学习Bagging之随机森林知识点汇总与python实现

知识点：随机森林是bagging的一个特化进阶版特化是指：随机森林的弱学习器都是决策树进阶是指：在bagging样本随机采样的基础上，又加上了特征的随机选择 Bagging是一种有放回的重复抽样方法，各学习器之间没有依赖关系，可以并行生成 Boosting各个学习器之间是串联的关系，每一轮的训练集不变，改变的是样本的权重 Bagging+决策树=随机森林 AdaBoost+决策树=提升树 Gradient+Boosting+决策树=GBDT 随机森林的构造过程：行采样和列采样行.

2022-04-10 13:12:30 4358 1

原创（四）决策树与python代码实现ID3算法

李航老师《统计学习方法》第二版学习笔记知识点：决策树是一种基本的分类与回归方法，是基于树结构来进行决策的根据损失函数最小化的原则建立决策树模型决策树内部节点表示一个特征或属性，叶节点表示一个类决策树可以看成if-then规则的集合决策树的一条路径对应于划分中的一个单元决策树常用的算法有ID3、C4.5与CART 决策树算法通常是一个递归的过程决策树学习通常包含三个步骤：特征选择、决策树生成、决策树剪枝信息熵表示随机变量不确定性的度量，熵越大不确定性就越大...

2022-04-09 15:59:49 1220

原创（三）朴素贝叶斯与垃圾分类Python代码实现

李航老师《统计学习方法》第二版学习笔记知识点：朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类算法属于生成模型优点：算法逻辑简单，时空开销小缺点：条件独立性的假设可能会导致牺牲一定的分类准确性朴素贝叶斯的参数估计可以是极大似然估计或贝叶斯估计贝叶斯公式：朴素贝叶斯分类器: 极大似然估计先验概率：极大似然估计条件概率：贝叶斯估计先验概率：,λ=1时称为拉普拉斯平滑，K代表Y有K类贝叶斯估计条件概率：,Sj代表特征个数...

2022-04-06 14:39:02 2687

原创（二）KNN与python代码实现

李航老师《统计学习方法》第二版学习笔记知识点KNN是一种基本分类与回归方法三个基本要素：K值的选择、距离度量、分类决策规则直观解释：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分为这个类 KNN没有显式的学习过程 KNN模型对应与基于训练数据集对特征空间的一个划分距离度量：由不同的距离度量所确定的最近邻点是不同的，常用欧氏距离 K值的选择：K值的减小就意味着整体模型变得复杂，容易发生过拟合，K值一般取一个

2022-03-27 21:11:22 2406

原创（一）感知机与python代码实现

参考李航老师的《统计学习方法》第二版知识点：感知机是二分类的线性分类模型，属于判别模型旨在求出将训练数据进行线性划分的分离超平面，目标求得一个超平面将正负例完全正确分开基于误分类的损失函数：L(w,b) = -∑yi(w·xi+b) 这里xi是误分类的点，损失函数是非负的，对应误分类点到分离超平面的总距离，如果没有误分类的点，损失函数的值为0 利用随机梯度下降法对损失函数进行极小化。首先任意选取一个超平面w0,b0，然后采用梯度下降法不断极小化损失函数，极小化过程不是一次使所有误分类点的.

2022-03-27 19:20:49 2849 2

原创 1.Softmax回归模型实现MNIST手写数字分类（python代码详解）

Softmax回归模型实现MNIST手写数字分类（python代码详解）关键点：Softmax回归处理多分类问题，其是Logistic回归在多分类问题上的推广softmax回归使用交叉熵损失函数来学习最优的参数矩阵W，对样本进行分类Softmax回归是有监督的。STEP 1：读取数据'''读取数据'''from tensorflow.keras.datasets import mnistfrom __future__ import divisionimport tensorflow a

2022-03-14 21:44:29 3839 1