自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 爬取城市拥堵指数-百度地图&高德地图

爬取城市拥堵指数-百度地图&高德地图

2023-06-26 16:04:28 1102 2

原创 异常值/缺失值判定与处理方法

学习笔记

2023-02-12 14:50:39 614

原创 O2O优惠券核销-数据分析2.0

O2O优惠券数据分析报告完整版-个人练习

2023-01-31 16:26:22 1159

原创 O2O优惠券核销-SQL实现

将文件导入datagrip中,利用SQL进行数据分析

2023-01-10 22:11:35 638 1

原创 O2O优惠券核销-模型预测

O2O优惠券核销-模型预测

2023-01-09 15:34:58 4858 2

原创 O2O优惠券核销-数据分析1.0

利用Tableau进行数据分析报告实战

2022-12-27 19:18:53 2857

原创 篇二:爬虫笔记-Selenium动态网页

selenium动态网页爬虫笔记

2022-12-03 13:44:07 428

原创 篇一:数据探索性分析步骤

目录一.数据的总体了解1.1 维度:data.shape1.2 类型等基本信息:data.info()1.3 统计信息:data.describe()二.数据的深入了解2.1 数据类型2.1.1分类数据2.1.2数值数据2.2 数据分布:2.2.1分类数据的分布2.2.2离散型数据的分布2.2.3连续型数据的分布三.数据的特殊了解3.1 缺失值3.2 唯一值四.数据的关系了解4.1特征变量与特征变量之间4.2特征变量与目标变量之间一

2022-04-23 20:03:26 2858

原创 (五)logistic回归与基于TensorFlow实现鸢尾花二元分类

李航《统计学习方法》第二版 学习笔记知识点分类算法 属于线性模型 其图形是一条S型曲线,单调增,并且定义域是(−∞ ,+∞ ),值域是(0,1) logistics回归比较两个条件概率值的大小,将X分到概率值较大的那一类 公式: 式1: 式2: 用线性回归模型的预测结果去逼近真实标记的对数几率 logistics的特点:在logistics回归模型中,输入Y=1的对数几率是输入x的线性函数,所以logistic函数又叫对数几率函数 采用梯度下降法对w,b进行更新一.

2022-04-17 14:38:53 1148

原创 (八)集成学习之GBDT与python代码实现

学习笔记参考:http://www.dmlearning.cn/single/a5bf33e7b2c44e499a1cb7b2d5f8fbfa.html全英文PPT,但是这是我挣扎几天后看过最通俗易懂的讲解了,打不开可以私聊我。知识点:Gradient Boosting Decision Tree:梯度提升决策树 无论是回归还是分类,都是采用CART树 策略:会用第K个CART树拟合前K-1个CART树留下的残差,从而不断缩小整个模型的误差 但在在更一般的情况下,使用负梯度 better

2022-04-14 20:18:14 2451

原创 (八)集成学习之提升树与python代码实现

李航《统计学习方法第二版》学习笔记知识点:提升方法是以分类树或回归树为基分类器的Boosting方法 采用加法模型与前向分步算法 对分类问题-二叉分类树 对回归问题- 二叉回归树 加法模型:, M代表树的个数,Θ表示树的参数 前向分步算法:,是当前模型 通过经验风险最小化确定下一棵决策树的参数Θ: 当采用平方误差损失函数时,其损失变为简单拟合残差 对于二元分类问题,提升树算法只需将AdaBoost算法中的基本分类器限制为二类分类器 例8.2 python代码实现并随便输入x值进..

2022-04-13 15:36:42 681

原创 (八)集成学习Bagging之随机森林知识点汇总与python实现

知识点:随机森林是bagging的一个特化进阶版 特化是指:随机森林的弱学习器都是决策树 进阶是指:在bagging样本随机采样的基础上,又加上了特征的随机选择 Bagging是一种有放回的重复抽样方法,各学习器之间没有依赖关系,可以并行生成 Boosting各个学习器之间是串联的关系,每一轮的训练集不变,改变的是样本的权重 Bagging+决策树=随机森林 AdaBoost+决策树=提升树 Gradient+Boosting+决策树=GBDT 随机森林的构造过程:行采样和列采样 行.

2022-04-10 13:12:30 4220 1

原创 (四)决策树与python代码实现ID3算法

李航老师《统计学习方法》第二版学习笔记知识点:决策树是一种基本的分类与回归方法,是基于树结构来进行决策的 根据损失函数最小化的原则建立决策树模型 决策树内部节点表示一个特征或属性,叶节点表示一个类 决策树可以看成if-then规则的集合 决策树的一条路径对应于划分中的一个单元 决策树常用的算法有ID3、C4.5与CART 决策树算法通常是一个递归的过程 决策树学习通常包含三个步骤:特征选择、决策树生成、决策树剪枝 信息熵表示随机变量不确定性的度量,熵越大不确定性就越大...

2022-04-09 15:59:49 1164

原创 (三)朴素贝叶斯与垃圾分类Python代码实现

李航老师《统计学习方法》第二版学习笔记知识点:朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类算法 属于生成模型 优点:算法逻辑简单,时空开销小 缺点:条件独立性的假设可能会导致牺牲一定的分类准确性 朴素贝叶斯的参数估计可以是极大似然估计或贝叶斯估计 贝叶斯公式: 朴素贝叶斯分类器: 极大似然估计先验概率: 极大似然估计条件概率: 贝叶斯估计先验概率:,λ=1时称为拉普拉斯平滑,K代表Y有K类 贝叶斯估计条件概率:,Sj代表特征个数...

2022-04-06 14:39:02 2616

原创 (二)KNN与python代码实现

李航老师《统计学习方法》第二版学习笔记知识点KNN是一种基本分类与回归方法 三个基本要素:K值的选择、距离度量、分类决策规则 直观解释:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为这个类 KNN没有显式的学习过程 KNN模型对应与基于训练数据集对特征空间的一个划分 距离度量:由不同的距离度量所确定的最近邻点是不同的,常用欧氏距离 K值的选择:K值的减小就意味着整体模型变得复杂,容易发生过拟合,K值一般取一个

2022-03-27 21:11:22 2358

原创 (一)感知机与python代码实现

参考李航老师的《统计学习方法》第二版知识点:感知机是二分类的线性分类模型,属于判别模型 旨在求出将训练数据进行线性划分的分离超平面,目标求得一个超平面将正负例完全正确分开 基于误分类的损失函数:L(w,b) = -∑yi(w·xi+b) 这里xi是误分类的点,损失函数是非负的,对应误分类点到分离超平面的总距离,如果没有误分类的点,损失函数的值为0 利用随机梯度下降法对损失函数进行极小化。首先任意选取一个超平面w0,b0,然后采用梯度下降法不断极小化损失函数,极小化过程不是一次使所有误分类点的.

2022-03-27 19:20:49 2795 2

原创 1.Softmax回归模型实现MNIST手写数字分类(python代码详解)

Softmax回归模型实现MNIST手写数字分类(python代码详解)关键点:Softmax回归处理多分类问题,其是Logistic回归在多分类问题上的推广softmax回归使用交叉熵损失函数来学习最优的参数矩阵W,对样本进行分类Softmax回归是有监督的。STEP 1:读取数据'''读取数据'''from tensorflow.keras.datasets import mnistfrom __future__ import divisionimport tensorflow a

2022-03-14 21:44:29 3651 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除