自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 收藏
  • 关注

原创 sqlite一行转多行

sqlite一行转多行

2022-12-16 17:57:24 1023 1

原创 JS_对数组元素进行排名

JS_对数组元素进行排名

2022-12-14 20:26:42 414

转载 4、【JS对象】4_浏览器对象

【JS对象】4_浏览器对象

2022-09-29 18:22:53 269

转载 4、【JS对象】3_JSON对象

4、【JS对象】3_JSON对象

2022-09-29 18:02:48 188

转载 4、【JS对象】2_JS数组

【JS对象】2_JS数组

2022-09-29 17:50:13 124

转载 4、【JS对象】1_JS对象

【JS对象】1_JS对象

2022-09-29 17:02:15 124

转载 3、JS基础知识_JS流程控制

3、JS基础知识_JS流程控制

2022-09-29 16:17:30 133

转载 3、JS基础知识_JS运算符

3、JS基础知识_JS运算符

2022-09-29 11:03:32 93

转载 3、JS基础知识_JS变量与常量

JS基础知识_JS变量与常量

2022-09-29 10:45:08 186

转载 2、谷歌F12介绍

谷歌F12介绍

2022-09-28 18:10:11 2445

转载 一、JS简介

JS简介

2022-09-28 17:45:24 1667

原创 乱炖小智慧

乱炖小智慧

2022-09-22 00:06:23 122

原创 pandas避免显示问题,设置不显示科学计数法

pandas避免显示问题,设置不显示科学计数法

2022-07-25 19:19:30 1441

原创 6、特征选择(filter):WOE迹象权数与IV值检验

特征选择(filter):WOE迹象权数与IV值检验

2022-07-25 11:06:57 688

原创 docker运行命令笔记

docker运行命令笔记

2022-07-20 10:51:40 369

原创 pandas获取指定日期所属月的月初月末

pandas获取指定日期所属月的月初月末

2022-07-03 14:07:34 2147

原创 Pandas怎么能把202201、2022-01这种月度格式补上月末天数2022-01-31

Pandas怎么能把202201、2022-01这种月度格式补上月末天数2022-01-31

2022-07-03 12:36:56 588

原创 presto架构和概念介绍

Presto简介

2022-06-14 15:20:27 5172 1

原创 回归类模型评估指标选择、局限、优势

回归类模型评估指标选择、局限、优势

2022-06-13 10:29:41 1381

原创 pandas_profiling:数据探索工具EDA

  pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。对于数据集的每一列,pandas_profiling会提供以下统计信息:  并且这个报告可以导出为HTML,非常方便查看。

2022-06-09 09:07:25 337

原创 1、数据分布不平衡问题:定义、场景

  所谓的不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样本更重要),需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种:在实际工程中,样本不平衡问题可能存在于以下几种场景中:工程过程中,应对样本不均衡问题常从以下三方面入手:...

2022-06-06 20:29:07 1540

原创 特征变换:特征归一化(Normalization)作用以及方法 Min-Max、Z-Score

特征归一化(Normalization)作用以及方法 Min-Max、Z-Score

2022-06-06 20:04:03 7905 1

原创 1、常用激活函数:Sigmoid、Tanh、ReLU、LReLU、RReLU、ELU

常用激活函数:Sigmoid、Tanh、ReLU、LReLU、RReLU、ELU

2022-06-06 15:53:14 2385 1

原创 3、Numpy的广播(broadcasting)

目录1.NumPy广播简介  Numpy所具备的广播(broadcasting)特性,可以使得数组的科学计算变得高效而便捷,是NumPy最核大的特色之一。1.NumPy广播简介  广播(broadcasting)描述的是NumPy如何处理具有不同形状的数组。受限于某些限制,较小的阵列在较大的阵列上“广播”,以便它们具有兼容的形状。  广播提供了一种向量化数组操作的方法,以便循环在 C 而不是 Python 中发生。无需复制不必要的数据,通常可以实现高效的算法实现。  在某些情况下,广播不是一个好

2022-06-01 15:35:03 391

原创 2、NumPy数组的常用方法

import numpy as np1.特殊数组的创建方法1.1、全0数组  np.zeros(6, dtype=‘int’) # 默认是浮点型,转化为整型  out:array([0, 0, 0, 0, 0, 0])1.2、全1数组  np.ones((3, 2)) # 三行两列  array([[1., 1.],     [1., 1.],      [1., 1.]])1.3、 随机数组:rand生成服从0-1分布的随机数  np.

2022-05-30 11:09:49 728

原创 scikit-learn:AdaBoost参数解释

  在sklearn中,AdaBoost既可以实现分类也可以实现回归,可以使用如下两个类来调用它们:sklearn.ensemble.AdaBoostClassifier(base_estimator=None, *, n_estimators=50, learning_rate=1.0, algorithm=‘SAMME.R’, random_state=None)sklearn.ensemble.AdaBoostRegressor(base_estimator=None, *, n_esti

2022-05-26 21:24:11 1165

原创 二、集成学习:Boosting 之 AdaBoost_回归问题

  对于任意Boosting算法,我们都需要明确以下几点:损失函数L(x,y)L(x,y)L(x,y)的表达式是什么?损失函数如何影响模型构建?弱评估器f(x)f(x)f(x) 是什么,当下boosting算法使用的具体建树过程是什么?综合集成结果H(x)H(x)H(x)是什么?集成算法具体如何输出集成结果?  同时,还可能存在其他需要明确的问题,例如:是加权求和吗?如果是,加权求和中的权重如何求解?训练过程中,拟合的数据XXX与yyy分别是什么?模型训练到什么时候停下来最好?  同

2022-05-26 16:08:08 1361

原创 二、集成学习:Boosting 之 AdaBoost_分类问题

(2)Boosting 之 AdaBoostBoosting 的本质实际上是一个加法模型,通过改变训练样本权重学习多个分类器并进行一些线性组合。而 Adaboost 就是加法模型+指数损失函数+前项分布算法。Adaboost 就是从弱分类器出发反复训练,在其中不断调整数据权重或者是概率分布,同时提高前一轮被弱分类器误分的样本的权值。最后用分类器进行投票表决(但是分类器的重要性不同)...

2022-05-25 22:01:00 825

原创 二:统计基础:描述统计

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2022-05-23 14:48:13 1456

原创 1、异常值(outliers)检测综述:定义、检测方法、影响、修正

一、异常值定义  在数据科学项目、统计分析、机器学习应用中检测异常值非常重要;  异常值,也称离群值,是指样本中的个别值,其数值明显偏离所属样本的绝大部分观测值。  异常值可以分成两种:单变量(Univariate) 和多变量(Multivariate)二、导致异常值的原因  两大类原因:人为原因(Non-natural) 和自然原因(Natural )。  人为原因(Non-natural):比如常见的数据输入错误、处理错误、抽样误差等  详细地了解各种类型的异常值:数据输入错误:人

2022-05-22 14:15:40 4261

原创 2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图

三、3σ\sigmaσ准则(异常值检测)  3σ\sigmaσ准则又称拉依达准则,是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。  3σ准则3\sigma准则3σ准则,仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的。  在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,如下图:3σ原则为:p(μ-σ<X<μ+σ)中的

2022-05-22 13:14:06 5595

原创 1、缺失值处理:暴力删除、直接转换、简单插补法

暴力删除、直接转换、简单插补法一.缺失值的类型二.常见的缺失值处理方法2.1、暴力删除、直接转换2.2、简单插补法一.缺失值的类型   在生成、采集、计算过程中被遗漏的数据信息,被称为缺失值;并不是表现为缺失状态的值就一定是缺失值,需要根据简单业务逻辑推断。   在对缺失数据进行处理前,了解数据缺失的类型十分必要的。完全变量   数据集中不含缺失值的变量称为完全变量。不完全变量   数据集中含缺失值的变量称为完全变量。  从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机

2022-05-20 19:10:13 2599

原创 统计基础:1.1_正态分布及其检验

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2022-05-19 21:16:28 8040

原创 二、集成学习:Bagging之随机森林算法(RandomForest Algorithm)

随机森林(RandomForest)一、随机森林(RandomForest)基本原理二、Out-Of-Bag Estimate 袋外数据估计泛化误差三、随机森林如何评估特征重要性。四、随机森林如何处理缺失值五、其它常见问题5.1、为什么Bagging算法的效果比单个评估器更好?5.2、为什么Bagging可以降低方差?5.3、Bagging有效的基本条件有哪些?Bagging的效果总是强于弱评估器吗?5.4、Bagging方法可以集成决策树之外的算法吗?5.5、怎样增强Bagging中弱评估器的独立性?5.

2022-05-19 20:29:17 3281

原创 一、集成学习概况、Boosting、Bagging、stacking介绍

11

2022-05-18 17:06:10 1234

原创 决策树模型: ID3 、C4.5、C5.0、CART、CHAID、Quest比较

一、决策树的核心思想  决策树:从根节点开始一步步走到叶子节点(决策),所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。树的组成  - 根节点(root node):第一个选择点,有零条或者多条出边的点;  - 内部点(internal node):只有一条入边并且有两条或多条出边的点;  - 叶节点(leaf node):最终的决策结果;二、决策树的分类与流派(ID3、C4.5、C5.0)如何切分特征(选择节点)  问题:根节点的选择该用哪个特征呢?接下来呢?如何切分呢?

2022-05-17 19:26:49 3717

原创 scikit-learn:逻辑回归参数解释

1、Logistic regression 简单介绍  又称对数几率回归;首先,逻辑回归处理是分类问题,对于二分类则是将线性函数的输出结果通过sigmoid函数映射到0/1标签,即越靠近1则判别为正例的概率越大,并最终通过最大似然估计优化求解。逻辑回归:模型构建、估计参数求解、结果解读笔记2、 逻辑回归评估器中的参数解释LogisticRegression?参数解释penalty正则化项dual是否求解对偶问题*tol迭代停止条件:两轮迭代损失值差值小于t

2022-05-15 17:51:02 980

原创 统计基础:3.1_假设检验综述

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2022-05-11 22:33:17 3334

翻译 统计基础:3.2_假设检验的两类错误

假设检验中的两类错误1、Ⅰ类错误和Ⅱ类错误2、α和β的计算3、α和β的关系4、两种错误的危害比较5、如何同时控制两类错误1、Ⅰ类错误和Ⅱ类错误  由于抽样的随机性,利用小概率原理对H0是否成立作为判断时,难免会犯两类错误。第一类错误(α错误/弃真错误):原假设为真时拒绝原假设  可能产生原因:1、样本中极端数值;2、采用决策标准较宽松。第二类错误(β错误/取伪错误):原假设为假时接受原假设  可能产生原因:1、实验设计不灵敏;2、。2、α和β的计算α 错误概率计算  由实际推断

2022-05-11 22:30:25 7092

原创 统计基础:3.3_假设检验之t检验(Student‘s t test)

t检验三种形式一、参数检验:T检验介绍1.1、单样本T检验(one sample t test)1.2、两独立样本T检验(two independent sample t-test)1.2、配对样本T检验(paired t test)一、参数检验:T检验介绍  t检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。 [1] t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。1.1

2022-05-09 16:53:55 7950

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除