自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 AACSB

时间趋势:每年通过认证的商学院数量链接: link.图片: 带尺寸的图片: 居中的图片: 居中并且带尺寸的图片: 当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 .生成一个适合你的列表项目项目项目项目1项目2项目3 计划任务 完成任务创建一个表格一个简单的表格是这么创建的:使用居中使用居左使用居右SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

2023-10-27 17:57:12 96 1

原创 sql语句case when常用查询总结

case when 是mySQL里面的控制流语句,和if…then…的分支判断逻辑很相似。case when语句有两种:(1)简单case when(2)case搜索函数法简单case when只能处理等式问题,case搜索函数法可以处理等式问题也可以处理不等式问题。case when的语法逻辑二、case when语句在业务中常见的几种用法2.1 数据映射处理比如将分类变量中每一个取值分别映射成0、1、2…5;所有用户的性别映射成0、1;或者把数值映射成具体的实际含义。如果是映射性别(0为女

2022-06-10 00:52:15 5023 1

原创 殊途同归的两种角度理解岭回归(内含有sklearn例子)

在学习统计学专业课《回归分析技术》时学过岭回归,学机器学习时也涉及到岭回归,但是两个角度的思想方法略有不同,但最后的结果却是殊途同归的,最近准备统计学考研的复试时,对比了两种思路,觉得很有意思,把一些思考过程分享出来。角度一:统计学角度之下的岭回归1.1 岭回归要解决什么问题?岭回归的产生是为了弥补最小二乘估计的不足之处:(1)最小二乘估计要求数据满足基本假定条件(变量之间不相关,残差项零均值、等方差、不序列相关),但实际中,能满足这个要求的数据是很少的,尤其是经济数据,变量之间有很强相关性(2)

2022-03-16 10:07:21 2032

原创 异常值挖掘方法——孤立森林Isolation Forest

异常值挖掘方法一、内容概览内容大致分为两大部分,第一部分是异常值挖掘方法概述,简略介绍异常值挖掘方法的分类及其优缺点。第二部分介绍孤立森林算法(iForest),Isolation Forest 简称 iForest,该算法是周志华在2010年提出的一个异常值检测算法,在工业界很实用,算法效果好,时间效率高。第二部分包括对iForest算法思想、原理、流程的介绍,以及来自sklearn官网上的一个iForest例子实战讲解,并附上代码与注释。二、异常值挖掘方法概述2.1统计量检验先对变量做一个描述

2022-03-16 10:00:03 4091

原创 地理空间数据项目实战——共享单车停车需求识别与地图匹配

共享单车停车需求识别与地图匹配在我们日常生活中,大家都骑过共享单车,现在的共享单车app里面都有这样一个功能:在地图上规划出了很多的单车停放栅栏(停放点),用户需要把单车停在停放栅栏内,否则就要扣钱交调度费。但有时候停放栅栏的规划并不合理,城市里有些地区的停放栅栏比较密集,有些地方的停放栅栏却很稀疏,骑车骑到一个较远的地方,却找不到停放点,用户就只能多花钱,同样地,对于共享单车公司来说,停车栅栏规划的不合理,也加大了调度的人力时间。所以根据单车停放需求来… 就很重要。如果我们能识别出来某些停车需求量很

2022-03-14 22:15:32 4564 9

原创 主成分分析学习笔记+sklearn人脸识别例子

降维算法之PCA一、降维算法概述高维数据不易于存储与分析,在处理高维数据之前往往要对其进行维归约,也叫降维。在高维数据中,必然有些特征是不带有有效的信息的(比如噪音),或者有些特征带有的信息和其他些特征是重复的(比如些特征可能会线性相关)。我们希望能够找出种办法来帮助 我们衡量特征上所带的信息量,让我们在降维的过程中,能够即减少特征的数量,又保留大部分有效信息将那 些带有重复信息的特征合并,并删除那些带无效信息的特征等等逐渐创造出能够代表原特征矩阵大部分信息 的,特征更少的,新特征矩阵。维归约算法大致

2022-03-01 20:58:22 870

原创 数据预处理流程

数据预处理流程总结下面分享一下自己通常会用到的一些数据预处理的方法和步骤,用Kaggle平台上的elo用户忠诚度预测的数据集作为应用案例。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']merchant = pd.read_csv(r'\原始数据\elo-merchant-category-recommendation\me

2022-03-01 17:47:23 4243

原创 数据分布探索函数(可以直接调用)

在建模之前要对数据进行探索性分析,首先要对数据分布有一个大致了解。matplotlib里面有自带的hist()函数,直接data.hist(),全部特征的分布状态就能在一张画布上展示出来,对于一个样本量较小的数据集来说,非常方便(700多个样本,60几个特征)。比如这样:在一个样本量为300多万的数据集上面跑了一下,效果也还可以,优点是速度真的很快(对比后面自己写的那个函数)。但是真的没法看得很精细。比如这个数据集的几个特征分布图都有这样的特点(拿第一行第四幅图举例):大量数据集中在0附近,往后就空空如

2022-02-25 17:23:19 3310

原创 建模数据内存管理代码块——打kaggle经常用得上的代码

在打数据建模比赛,比如kaggle时,数据集体量往往特别大,而且要经常反复读取文件,并进行计算,有一些处理后的数据在后续建模也用不到,但是它会占据多余的空间,因此需要时刻注意进行内存管理。以下分享两种在建模数据处理过程中有帮助的内存管理方法。除了可以通过及时删除不用的变量并使用动态垃圾回收机制来清理内存外,还可以使用如下方式在定义数据类型时尽可能在不影响数值运算的前提下给出更加合适的数据类型:def reduce_mem_usage(df, verbose=True): numerics =

2022-02-24 20:38:23 566

原创 Kaggle上分技巧——单模K折交叉验证训练+多模型融合

一、K折交叉验证训练单个模型1.1 k 折交叉验证(K-Fold Cross Validation)原理通过对 k 个不同分组训练的结果进行平均来减少方差,因此模型的性能对数据的划分就不那么敏感,经过多次划分数据集,大大降低了结果的偶然性,从而提高了模型的准确性。具体做法如下:step1:不重复抽样将原始数据随机分为 k 份。step2:每一次挑选其中 1 份作为验证集,剩余 k-1 份作为训练集用于模型训练。一共训练k个模型。step3:在每个训练集上训练后得到一个模型,用这个模型在测试集上测

2022-02-23 19:34:29 6557

原创 python导入、导出csv文件的方法

python 导入csv文件的方法几个常用参数:filepath_or_buffer :文件路径header:指定哪一行为列名index_col:指定csv文件中哪一行为索引下面是一些具体例子:data = pd.read_csv(r'D:\代码\05 \rankingcard.csv',index_col=0)读取文件要在文件路径前面加上r,该csv文件中的第一列是索引,故index_col=0。这一句代码执行下来直接就可以得到一个dataframe.如图:pd.read_csv()

2022-01-09 23:53:37 14625

原创 随机森林学习笔记

以下内容参考资料有:周志华《西瓜书》李航《统计学习方法》哔哩哔哩白板推导@shuhuai008哔哩哔哩菜菜的sciki-learn课堂《机器学习实战》吴喜之《多元统计分析——R与python的实现》sciki-learn中random forest的常用接口接口作用apply输入测试集,返回测试样本所在的叶子节点索引predictscorefitpredict_proba返回样本被分到每一类的概率,有几类就返回几个概率。如果是二分类问题,

2020-07-25 00:31:06 432

原创 矩阵计算学习日记(1)(未完待续)

matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL)as.matrix(x, …)S3 method for class ‘data.frame’as.matrix(x, rownames.force = NA, …)is.matrix(x)data an optional data vector (including a list or expression vector). Non-atomic class

2020-06-27 16:30:11 349

原创 随机抽样之CDF逆变换法(未完待续)

导航CDF逆变换法产生随机变量(一元)CDF逆变换法产生随机向量(多元)CDF可以推广到多元场合下生成随机向量,即生成RnR^nRn上的随机向量。这种方法也叫条件分布法但是在高维情况(即n较大)下,效率往往较低。仅有少数的成功案例。原理原理一:条件概率原理二:CDF逆变换抽样X=(X1,X2.......Xn)X=(X_1,X_2.......X_n)X=(X1​,X2​.........

2020-06-27 16:28:28 2528

原创 决策树原理与sciki-learn实战

参数解释feature_importances_:返回特征重要性,当spliter='best’时,根据特征重要性建决策树(只用重要性不为0的特征来分类)。这里的重要性是gini importance。其实计算的是gini值的损益,每一个节点的gini系数前要乘样本比例作为权重。...

2020-06-27 16:26:42 150

原创 如何在Anaconda中安装lightgbm

这是一个相对简单的方法,不需要编译,Windows用户不用花大力气去安装vs或vc runtime。step1:打开清华开源软件镜像站。step2:复制代码pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package把这里的 some-package 换成 lightgbmstep3: 打开Anaconda ,在你要使用lgbm的File里面,点击右上角的 New ,再点击 Terminal。step4: 管理员界面出

2020-06-27 02:02:15 5622

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除