自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 jupyter notebook修改默认浏览器(改chrome)

可能是装了夸克网盘,注册表被动了,又或者是卸载S.B夸克的时候,注册表删多了,导致jupyter 打开的默认浏览器变成了edge;由于我们基本得打开多个浏览器,所以还是要用chrome的。

2024-08-29 20:31:03 376

原创 燃气灶行业分析、淘宝平台销售分析

以液化石油气(液态)、人工煤气、天然气等气体燃料进行直火加热的厨房用具按气源:分为煤气灶、液化气灶、天然气灶;按灶眼:分为单灶、双灶和多眼灶。

2024-08-24 19:47:11 789

原创 树模型讲解、行列抽样、特征重要性の对比分析

subsample,每棵树不放回抽样,一般是个0.5~0.9之类的浮点;在用gpu_hist的时候,还可以像lightgbm一样梯度采样。colsample_bytree,每棵树生成之时就抽相应的比例的特征,跟随机森林不同,随机森林是每次分裂的时候抽,而xgboost这棵树在生成的时候,抽了哪些特征就定下来。同时还在colsample_bylevel,colsample_bynode这些二级、三级列抽样参数。简单来说,就是在子树模型分裂时,用到的特征次数。这里计算的是所有的树。

2024-07-22 18:48:38 881

原创 商品运营分析

本文对某个品类(猫砂)在1688的情况,进行一定维度的分析:内容主要是:1.品类前景2.阿里巴巴商家平台和淘宝平台销售,销量分析(爬虫获取数据)3.对获取的数据,进行分析和挖掘,粗略分析影响销量的因素(仅从标题、起始价、店铺是否星级、促销条件、吸引条件等一级爬虫获取的数据来分析)

2024-07-17 02:04:46 1130

原创 python爬站长素材中的免费简历

仅做学习用,不对相关网站抱有任何恶意或不良影响。目标是爬取一些简历,在这里选中简历。

2024-07-03 00:37:09 239

原创 数据分析常用模型合集(三)同期群、逻辑树、假设检验等

把用户分为不同的同期群,可以更为细致地分析,避免单纯地分析整体得出错误结论,针对不同同期群的行为差异,制定有针对性的营销方案。

2024-06-03 16:21:53 811

原创 数据分析常用模型合集(二)RARRA模型、RFM模型

随着互联网的发展,前期平台的砸钱拉新、抢占市场,大家都叫AARRR小甜甜;现在市场基本抢占得差不多,形成了一个平衡,新人基本拉不到多少,用户都知道干什么事有哪些平台,比如买东西主流淘宝、京东、PDD或者抖音看看比比价,外卖看看美团、饿了么等,现在惊现一种声音,指出AARRR已经过时了,应该用RARRA模型。

2024-06-02 23:24:35 1036

原创 数据分析常用模型合集(一)AARRR模型和漏斗模型

本文只是一个引子,看了可能有点收获,但并不多,还要加深巩固一下:AARRR(海盗模型)|原理+Python可视化实现-阿里云开发者社区 (aliyun.com)电商AARRR模型分析(一)——R语言 - 郝hai - 博客园 (cnblogs.com)抖音AARRR模型分析 - 简书 (jianshu.com)用AARRR模型分析拼多多用户增长方式 | 人人都是产品经理 (woshipm.com)AARRR模型案例:利用数据优化渠道投放,并实现用户增长 | 人人都是产品经理 (woshipm.com)

2024-06-02 23:08:05 1166

原创 线性回归Statsmodels模型报告(重在Statsmodels.OLS.summary())

最近看了一下Statsmodels.OLS,即用Statsmodels使用最小二乘法获得线性回归的系数、截距,主要有一个model.summary(),其中有一些参数想深入弄明白,将学习结果分享:如果用python,有很多种方法实现线性回归(带不带常数项截距都无所谓):从计算原理上来分:一般经常使用正规方程(最小二乘法)和梯度下降。,其本质还是上述两种方法的不同库的实现;

2024-05-26 20:52:15 1219

原创 时间序列模型笔记(二)

接上文笔记(一),建议先看上文,上文我们讲述了时间序列基本知识,ARIMA等本文主要是(1)SARIMA(2)自动、手动确定参数(3)一些其他需要注意的点;

2024-05-15 14:47:05 869

原创 时间序列模型笔记(一)

把所需要掌握的知识点都说到,同时对一些不太会用到的不作过多讲述,但将深入点的知识链接附上;将完整的流程进行展示,带上数据集案例;作为知识分享,不写屎山,让代码简单直观,因为自己看别人文章,一些简单的功能,非要写得花里胡哨秀技术,让人看得脑壳疼。

2024-05-12 19:42:18 1490

原创 AB test原理、公式、案例

比如更新了一个新功能,是否会对产品有正向作用,主观猜测可能会犯错误,此时进行假设检验:原假设H0:老方案和新方案无区别,H1老方案和新方案有区别(双尾)原假设H0:老方案>=新方案,H1老方案

2024-04-17 17:46:09 1841 2

原创 python生成随机姓名、工号、电话,自动排班

我们直接修改下代码,## 定义一个类"""其实只需要工号、姓名即可,但是为了看起来很真,强行加了手机号随机生成一个姓名、手机号定义为静态方法,内部调用"""self.length = length # 需要的人数self.path = path # 输出路径"""生成一个姓名"""fake = Faker("zh_CN") # 生成一个随机姓名"""生成一个手机号""""""生成指定长度姓名"""

2024-04-11 15:02:29 1356 1

原创 超市零售数据分析案例(粗浅、易懂型)(RFM模型)

一个超市2011到2014年销售数据,51290 rows × 24 columns,简单看看,本文不涉及算法;

2024-04-08 17:48:37 901

原创 手写一个简单的线性回归、岭回归

自定义类,实现线性回归和岭回归,完成主体部分,细节其实还需完善。内容:1.简单复制粘贴下数学原理2.代码及测试3.思考。

2024-04-04 19:20:48 863 2

原创 ROSSMANN Sales Forecast德国劳诗曼销售预测

kaggle的数据集给了我们一个train,一个store数据集,同时要我们预测test数据集的数据;预测未来6周旗下1115个门店销售数据,注意test没有给我们顾客人数;以前搞过的kaggle数据集,现在重写一遍,虽然数据集有点老了,但kaggle上面还是看到有人不停更新充分,不过高分的,都是加了天气、趋势、地理信息等额外数据集进去了,为了冲分果然方法层出不穷,同时不得不承认国外对一些信息获取的优势,本文在不额外添加数据集的情况下,逐步演示探索的步骤以及思考;

2024-03-25 01:38:41 1090 1

原创 LightGbm参数案例详解、参数讲解全又多

FB1 WARNING:本文不含LightGBM原理解释,主要讲重要参数(较一般文章多、新)以及演示案例,文章中有相当部分的官网英文,担心自己翻译带有个人色彩,故摘选原文,如果英语太差看起来可能会有点蛋疼。

2024-03-11 15:18:18 2397

原创 Credit Card Fraud信用卡反欺诈案例,样本不平衡,数据分析及结果的思考

(1)逻辑回归的实验,如果设置了class_weight=balanced,则召回会变高,但代价是精确率太低,低到0.1以下,这基本是难以接受的,通过几组对比,class_weight中1的权重越大,召回越高,精确越低,PR面积越小,ROC会变大,所以不建议设class_weight,如果实际业务中,漏判一个欺诈数据代价太大,可尝试用比较小的样本权重;2.最终评价标准,比如漏掉1个欺诈,我们损失500块,误判一个正常交易为欺诈,会损失200块,通过更改阈值,取一个损失最小值;

2024-03-05 01:36:13 981

原创 Seaborn(SNS)lineplot()、scatterplot()、relplot参数详解、案例,errorbar和bootstrap自助法

目的:本来想看一下lineplot的其他参数是什么意思,在网上找了一些文章,基本都只是介绍了一部分,或者对errorbar的介绍不太满意,想着这东西本身也不是很难,参数也没有那么多,索性自己对照官网和一些文章,写一篇,把lineplot(scatterplot),relplot的所有参数都以案例可视化写出来:内容:1.基本介绍 2.所有参数(按相关性顺序写) 3.重点介绍errorbar和bootstrap自助法 4.relplot的不同之处。

2024-01-10 15:06:41 2303

原创 XGboost参数、案例

本文不含XGboost的Loss定义、分裂原理,但会讲一下比较难理解的,需要对原理非常清楚,不然你可能不知道我要表达的意思--->主要写一些难懂的参数解释和实际应用,顺便做个小笔记,自己忘了也可以来抄一下,因参数很多,挑一些主要的说:内容:1.原生接口案例,参数解释2.sklearn接口GridSearchCv3.原生接口调参与sklearn调参对比,xgboost.cv方法。

2024-01-06 13:57:57 1709 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除