自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 AB test原理、公式、案例

比如更新了一个新功能,是否会对产品有正向作用,主观猜测可能会犯错误,此时进行假设检验:原假设H0:老方案和新方案无区别,H1老方案和新方案有区别(双尾)原假设H0:老方案>=新方案,H1老方案

2024-04-17 17:46:09 595 1

原创 python生成随机姓名、工号、电话,自动排班

我们直接修改下代码,## 定义一个类"""其实只需要工号、姓名即可,但是为了看起来很真,强行加了手机号随机生成一个姓名、手机号定义为静态方法,内部调用"""self.length = length # 需要的人数self.path = path # 输出路径"""生成一个姓名"""fake = Faker("zh_CN") # 生成一个随机姓名"""生成一个手机号""""""生成指定长度姓名"""

2024-04-11 15:02:29 735 1

原创 超市零售数据分析案例(粗浅、易懂型)

一个超市2011到2014年销售数据,51290 rows × 24 columns,简单看看,本文不涉及算法;

2024-04-08 17:48:37 548

原创 手写一个简单的线性回归、岭回归

自定义类,实现线性回归和岭回归,完成主体部分,细节其实还需完善。内容:1.简单复制粘贴下数学原理2.代码及测试3.思考。

2024-04-04 19:20:48 759 2

原创 ROSSMANN Sales Forecast德国劳诗曼销售预测

kaggle的数据集给了我们一个train,一个store数据集,同时要我们预测test数据集的数据;预测未来6周旗下1115个门店销售数据,注意test没有给我们顾客人数;以前搞过的kaggle数据集,现在重写一遍,虽然数据集有点老了,但kaggle上面还是看到有人不停更新充分,不过高分的,都是加了天气、趋势、地理信息等额外数据集进去了,为了冲分果然方法层出不穷,同时不得不承认国外对一些信息获取的优势,本文在不额外添加数据集的情况下,逐步演示探索的步骤以及思考;

2024-03-25 01:38:41 907 1

原创 LightGbm参数案例详解、参数讲解全又多

FB1 WARNING:本文不含LightGBM原理解释,主要讲重要参数(较一般文章多、新)以及演示案例,文章中有相当部分的官网英文,担心自己翻译带有个人色彩,故摘选原文,如果英语太差看起来可能会有点蛋疼。

2024-03-11 15:18:18 1028

原创 Credit Card Fraud信用卡反欺诈案例,样本不平衡,数据分析及结果的思考

(1)逻辑回归的实验,如果设置了class_weight=balanced,则召回会变高,但代价是精确率太低,低到0.1以下,这基本是难以接受的,通过几组对比,class_weight中1的权重越大,召回越高,精确越低,PR面积越小,ROC会变大,所以不建议设class_weight,如果实际业务中,漏判一个欺诈数据代价太大,可尝试用比较小的样本权重;2.最终评价标准,比如漏掉1个欺诈,我们损失500块,误判一个正常交易为欺诈,会损失200块,通过更改阈值,取一个损失最小值;

2024-03-05 01:36:13 744

原创 Seaborn(SNS)lineplot()、scatterplot()、relplot参数详解、案例,errorbar和bootstrap自助法

目的:本来想看一下lineplot的其他参数是什么意思,在网上找了一些文章,基本都只是介绍了一部分,或者对errorbar的介绍不太满意,想着这东西本身也不是很难,参数也没有那么多,索性自己对照官网和一些文章,写一篇,把lineplot(scatterplot),relplot的所有参数都以案例可视化写出来:内容:1.基本介绍 2.所有参数(按相关性顺序写) 3.重点介绍errorbar和bootstrap自助法 4.relplot的不同之处。

2024-01-10 15:06:41 1556

原创 XGboost参数、案例

本文不含XGboost的Loss定义、分裂原理,但会讲一下比较难理解的,需要对原理非常清楚,不然你可能不知道我要表达的意思--->主要写一些难懂的参数解释和实际应用,顺便做个小笔记,自己忘了也可以来抄一下,因参数很多,挑一些主要的说:内容:1.原生接口案例,参数解释2.sklearn接口GridSearchCv3.原生接口调参与sklearn调参对比,xgboost.cv方法。

2024-01-06 13:57:57 1039 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除