自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rubyw的博客

努力学习成长!

  • 博客(206)
  • 资源 (4)
  • 收藏
  • 关注

原创 机器学习:多个分类模型建模融合

【代码】机器学习:多个分类模型建模融合。

2024-08-12 10:51:45 100

原创 金融风控评估模型指标:KS、PSI

一个常见的情形是,离线评测模型的KS值很高,但是等到上线应用后,模型的KS很快就大幅“衰减”了,而且很多时候都是离线提升的越多,线上衰减越大。这里其实有个观察的误区,所谓的“衰减”是指在不同时期的不同用户集合上的KS值比较,而实际上不同集合间的KS绝对值是没有比较意义的。性能稳定性则是指,要保证预测分数区间对应的真实风险是相对稳定的,比如600-650分之间对应的逾期风险是1%,那么我们希望在所有月份上真实风险都能稳定在1%的水平附近。而在相同逾期率的水平下,新模型的通过率提升多少,可以提升整体规模多少。

2024-08-10 22:51:08 196

原创 金融风控融合指标:年华风险/人数逾期率

2024-08-10 22:46:50 86

原创 金融风控场景下的数据分析、模型与策略

举例来说,在汽车贷款业务中,数据分析发现客户的工作年限、过去的信用违约记录以及车辆价值与贷款违约率密切相关。如果发现某一地区的逾期率突然上升,深入分析原因,可能是当地经济环境恶化,进而调整该地区的信贷政策。总之,金融风控中的数据分析为模型提供了坚实的数据基础,模型的输出结果为策略的制定提供科学依据,而策略的有效实施又能反馈到数据中,推动数据分析和模型的不断优化和改进,形成一个持续完善的风险管理闭环。在金融风控场景中,数据分析、模型与策略的相互作用和协同对于有效管理风险、保障金融机构的稳健运营至关重要。

2024-08-10 22:19:54 301

原创 金融风控数据分析主要关注指标:vintage、roll rate 和 迁移率

Vintage分析通过将不同时期放款的资产按照账龄进行分组,并跟踪其在每个账龄阶段的表现,为评估资产质量和风控策略效果提供了有力的工具。vintage在报表体系中,Vintage报表通常会呈现不同放款月份的资产在各个账龄阶段的详细指标,如逾期金额、逾期率、不良金额、不良率等。通过图表的形式,直观展示资产质量的变化趋势。2024 年 2 月 | 1 | 80,000 | 1.6% | 40,000 | 0.8%

2024-08-10 18:16:30 641

原创 在jupyter lab怎么指定python环境?

打开 Jupyter Lab ,在新建 Notebook 时,您应该能够在“Kernel”选项中看到您注册的虚拟环境,选择它即可在该环境中运行代码。首先,确保您已经创建并激活了想要使用的 Python 虚拟环境。替换为您实际的虚拟环境名称。例如,如果您的虚拟环境名为。

2024-08-06 20:30:46 336

原创 如何构建销售分析指标体系?

2024-08-05 02:13:02 97

原创 如何构建app活动分析指标体系?

2024-08-05 02:11:29 110

原创 数据运营中常见的指标类型分类

2024-08-05 02:09:15 229

原创 数据分析师笔试试卷五:SQL、Python——(YH)

现有用户购买行为表记录了客户ID、购买的产品ID和每次购买的金额,如下表,请统计每个产品购买金额前3的用户,输出产品ID、客户ID和购买金额。1.3-请用SQL语句查询每一天申请的订单数量,通过的数量,通过率,放款总金额,放款件均(base_apl 左关联 base_loan)接下来,可以先尝试 1.5 的平方,即 1.5×1.5 = 2.25,因为 2.25 小于 3,所以 大于 1.5。两个对象完全独立,互不影响。首先,我们知道 1 的平方是 1,2 的平方是 4,所以 的值在 1 到 2 之间。

2024-08-05 02:06:05 848

原创 数据分析师笔试试卷四:SQL——视频(KS)

假设总共有 N 条视频数据,总共有 M 个不同的审核员 ID,每个审核员 ID 在总量中的数量为 n_i,则抽取数量为 floor(1000 * n_i/N),其中 floor函数表示向下取整。x2~y1之间重复计算的时间就是多开)求每个审核员剔除多开后的时间(注:审核时间=提交时间-领取时间) (25分,考点:逻辑***)4、现在要从总量中抽出1000条提交事件的视频数据,要求每个审核员id的抽取比例要相近 (注:抽取比例=抽取量/总量) (20分,考点:逻辑*)

2024-08-05 01:46:38 350

原创 SQL优化的方法有哪些?

有两个表, customers ( customer_id , name )和 orders ( order_id , customer_id , amount )。优化后:可以先对 orders 表按照 customer_id 进行分组求和,得到一个临时表,然后再与 customers 表进行连接,提高效率。假设有一个用户表 users ,包含 id(用户 ID ,主键)、name(用户名)、age(年龄)和 city(所在城市)等列。,这样会返回该客户的所有订单然后再排序,数据量可能很大。

2024-07-22 18:36:40 659

原创 怎么通过聚类分析进行客户画像精准营销?

需注意,这只是一个简单的示例,实际情况中数据集的特征可能更多样,需要更深入地分析和理解客户行为,以制定更有效的营销策略。例如,一家银行根据客户的存款金额、贷款情况、信用卡消费等指标,使用 K-Means 聚类算法将客户分为高价值客户、潜在高价值客户、普通客户等群组。总之,通过聚类分析进行客户画像精准营销需要综合运用数据分析技术和营销思维,不断优化和改进,以实现最佳的营销效果。例如,一家电商企业可以收集客户在过去一年中的购买记录,包括购买的商品类别、价格区间、购买的时间节点等。聚类分析与客户画像构建。

2024-07-22 00:19:33 937

原创 Hive SQL处理时间格式都有哪些

不同的数据库在时间处理函数和格式上可能会有细微的差异,但上述方法在 Hive SQL 中是较为常用的。

2024-07-16 00:32:44 233

原创 SQL常用的函数有什么

这些只是 SQL 中常用函数的一部分,具体的使用取决于您的数据库管理系统(如 MySQL、Oracle、SQL Server 等)以及具体的业务需求。

2024-07-16 00:24:31 326

原创 常用的linux命令是是什么

这只是一小部分常用的 Linux 命令,还有许多其他命令可用于各种不同的任务。:实时显示系统中资源使用情况和进程信息。:在文件中搜索指定模式的文本。:列出目录中的文件和子目录。:查看文件内容并在终端显示。:移动或重命名文件和目录。:更改文件或目录的权限。:在指定目录下查找文件。):查看网络接口配置。:分页查看文件内容。

2024-07-15 01:35:25 276

原创 数据分析师笔试试卷三:Excel、SQL、Python、算法

例如,有一组学生的数学成绩(连续变量)和性别(分类变量),要研究性别对数学成绩的影响,可以使用 t 检验;一组学生,其中一部分是男生,一部分是女生,同时有他们的数学考试成绩。在控制每天学习时间这个变量的影响下,计算数学成绩和语文成绩之间的偏相关系数,以更准确地了解它们之间的直接关系。:当二分变量是人为划分的(例如,考试成绩 60 分以上为及格,60 分以下为不及格),与连续变量之间的相关性可用二列相关系数。例如,在研究教育程度与收入的关系时,控制工作年限这个变量的影响,计算出的就是偏相关系数。

2024-07-15 01:28:40 938

原创 如何将ipynb文件转为md文件格式方便上传到自己的CSDN博客中

【代码】如何将ipynb文件转为md文件格式方便上传到自己的CSDN博客中。

2024-07-12 00:45:24 136

原创 EXCEL、SQL、Python去重的方式分别是什么?

DISTINCTcolumn1column1column2GROUP BYMIN()MAX()column1column2EXISTScolumn1column2这些方法可以根据具体情况选择合适的去重策略,在处理复杂的数据去重需求时特别有用。如果有特定的数据处理场景或者更多的问题,请随时告诉我!setpandaspandas在 Python 中,通常使用不同的方法来处理列表或者数组中的唯一值。这取决于你使用的数据结构和需要的功能。

2024-07-10 01:11:03 861

原创 数据分析师笔试试卷二:SQL、Python、线性回归算法预测

提交时请在文件名称前加上你的名字。

2024-07-10 00:24:18 728

原创 数据分析师笔试试卷一:Excel、SQL、Python、数据分析思维

SUMIFS主要用于根据多个条件进行求和,适合处理具有多个筛选条件的数据。SUMPRODUCT主要用于对数组或范围中对应元素进行乘法后求和,适合进行复杂的数组运算和统计计算,如加权求和、多条件计算等。举例说明假设你有一个员工信息表,包括员工姓名和对应的工资。你需要根据员工姓名查找他们的工资。可以使用 VLOOKUP 函数来实现,或者使用 INDEX-MATCH 组合来进行更灵活的查找。=VLOOKUP("张三", A2:B100, 2, FALSE)

2024-07-09 23:34:12 1344

原创 在进行效果评估分析中,为什么不直接对比结果差异而是通过统计学检验呢?

通过统计学检验方法,我们能够更科学、准确地评估A/B测试的结果,确保结论具有统计显著性,从而为实际决策提供可靠的依据。

2024-07-09 10:53:04 416

原创 卡方检验的使用场景

假设你想研究不同的短信内容(变量1:A/B组)是否会影响客户的回复情况(变量2:回复/未回复)。通过以上步骤和示例,可以确定在何种情况下使用卡方检验,以及如何实施和解读卡方检验的结果。用于检验观测数据与理论分布(预期分布)之间的差异程度,判断观测频数是否符合某种分布。假设你有一个理想的客户分布(理论分布),需要检验实际客户的回复是否符合这种分布。根据计算得到的卡方统计量和自由度,在卡方分布表中查找对应的p值。用于检验一个分类变量的实际分布是否与预期分布相符。计算每个单元格的期望频数。

2024-07-09 10:36:46 462

原创 A/B test:评估短信营销效果分析

通过精心设计的A/B实验,可以科学地评估不同话术在移动通信外呼或短信营销中的效果,进而优化营销策略,提升客户响应率和转化率。

2024-07-09 10:35:24 603

原创 假设检验:评估价格调整效果分析

使用统计软件(如Python中的SciPy库或R语言)计算选择的假设检验方法的检验统计量。通过以上步骤,可以使用统计方法(如假设检验)来客观地评估价格调整对指标变化的影响是否显著,并为决策提供数据支持。在这个示例中,根据计算得到的p值,可以决定是否拒绝零假设,进而评估价格调整对转化率变化的显著性影响。假设我们从数据库中提取了两组数据:价格调整前的转化率和价格调整后的转化率。根据您的数据类型和问题,选择适当的假设检验方法。通常情况下,备择假设是我们想要验证的,即价格调整引起了指标变化。

2024-07-09 10:18:49 437

原创 电视内容推荐效果分析

通过详细的用户行为分析,可以深入了解不同频道的推荐效果,识别推荐系统的优劣,并制定针对性的优化策略。结合点击率、转化率、观看时长和用户反馈等多维度指标,可以全面评估推荐系统的表现,并通过实验设计不断改进推荐策略,提升推荐系统的整体效果和用户满意度。

2024-07-09 00:55:11 816

原创 生存分析:简单案例介绍

通过详细的会员生存概率分析,可以深入了解影响会员留存的关键因素,制定有效的会员保留策略,提高会员的长期价值和整体盈利能力。这种分析不仅帮助识别高风险群体,还能优化会员服务和内容策略,提升用户满意度和忠诚度。

2024-07-09 00:51:45 978

原创 指标预警设置的方法及流程

如果你有具体的业务场景或需要进一步的帮助,可以告诉我更详细的信息。:为每个指标设定预警阈值,这些阈值可以是固定的数值,也可以是基于历史数据计算出的动态阈值。:根据预警的效果和业务需求,不断调整阈值和预警策略,确保预警系统能够及时准确地反映业务情况。:确定如何通知相关人员,常见的方式包括邮件、短信、即时通讯工具(如微信、Slack)等。:决定多长时间检查一次指标,频率可以是实时、每日、每周等,取决于业务需求。:选择需要监控的关键指标(KPIs),如销售额、用户增长率、网站流量等。

2024-07-04 23:51:47 517

原创 给指标打权重的几大方法

给指标打权重的方法有很多,选择适当的方法取决于具体的应用场景和数据特点。通过合理分配权重,可以提高模型的准确性和解释性。

2024-07-04 23:46:29 517

原创 特征处理:WOE分箱

WOE分箱是一种通过将连续变量或分类变量转化为具有区分能力的分箱,并计算每个分箱的证据权重的方法。通过这种方法,可以提高模型的预测能力,特别是在信用评分和风险建模中被广泛应用。

2024-07-04 23:43:15 1038

原创 数据处理:分箱

分箱(Binning),也称为离散化(Discretization),是数据预处理中的一种技术,主要用于将连续型变量转换为离散型变量。分箱的主要目的是减少数据的复杂性,增强模型的稳定性和可解释性,特别是在使用一些对连续变量不太敏感的模型时(如决策树)。

2024-07-04 23:35:06 338

原创 机器学习十大常用算法的比较:原理及主要特点、优缺点、应用场景

这些算法各有其独特的特点和适用场景,选择合适的算法取决于数据的特性、问题的性质以及需要达到的目标。

2024-07-04 22:25:24 343

原创 用户生存分析的主要方法:Kaplan-Meier估计法

通过举例说明Kaplan-Meier估计法在会员用户生存分析中的应用,可以帮助我们理解如何使用该方法分析和预测会员用户的留存时间。

2024-07-03 00:23:30 610

原创 生存分析(Survival Analysis)的介绍和解释

生存分析(Survival Analysis)是一种统计方法,用于分析和预测特定事件的发生时间,通常用于医疗研究、工程可靠性、金融风险管理等领域。生存分析的主要目标是研究时间到事件(如死亡、故障、违约等)发生的时间分布。

2024-07-03 00:18:22 562

原创 机器学习:时间序列分析模型的原理介绍

时间序列分析是一种专门用于处理按时间顺序排列的数据的统计方法,旨在揭示数据内在的结构、模式和趋势。时间序列分析模型主要用于预测未来值、描述数据的行为以及发现数据中的周期性或趋势。

2024-07-02 18:33:01 688

原创 机器学习:神经网络模型的简单介绍

神经网络(Neural Network,NN)是一种受人类神经系统启发而设计的机器学习模型,特别适用于处理复杂的非线性关系和大规模数据集。它由多层神经元组成,每层神经元通过权重连接到下一层,通过学习调整这些权重来实现从输入到输出的复杂映射关系。

2024-07-02 18:20:25 376

原创 机器学习:KNN(K-近邻)算法原理的介绍及应用场景

K近邻算法(K-Nearest Neighbors,KNN)是一种基本且直观的监督学习算法,用于分类和回归任务。其基本思想是基于特征空间中的距离度量,在训练集中找到与新样本最近的K个邻居,然后通过这些邻居的标签来决定新样本的类别或者值。

2024-07-02 18:14:50 494

原创 机器学习:SVM支持向量机的原理介绍及应用场景

支持向量机(Support Vector Machine,SVM)是一种常用于分类和回归分析的监督学习模型。它的基本原理是通过找到一个最优的超平面来进行分类或者回归,使得样本点与超平面之间的间隔(margin)最大化。

2024-07-02 18:06:21 491

原创 不同集成学习算法的比较:随机森林、AdaBoost、XGBoost、LightGBM

这个表格列出了几种常见的集成学习算法,包括AdaBoost、Gradient Boosting、XGBoost、LightGBM、CatBoost和Random Forest。它们各自的主要特点、应用场景、并行处理支持、稳定性和优化策略有所不同,选择适合的算法取决于具体的数据和任务需求。

2024-07-02 17:38:03 463

原创 机器学习:集成学习:LightGBM算法

LightGBM(Light Gradient Boosting Machine)是一个基于梯度提升框架的高效机器学习算法,由微软开发,专门用于大规模数据集和高效率的处理。它通过基于直方图的决策树算法来加快训练速度,提高模型的准确性。以下是关于LightGBM的详细介绍,包括其原理、优势、实现细节以及应用场景。

2024-07-02 17:32:39 446

武汉echarts地图js文件

武汉echarts地图js文件

2023-10-27

苏州echarts地图js文件

苏州echarts地图js文件

2023-10-27

MongoDB-windows-x86-64-5.0.20

MongoDB5.0安装包

2023-09-01

Linux: CentOS 6.8

Linux: CentOS 6.8

2022-06-20

Tableau 10.5.0

Tableau 10.5.0

2022-06-20

intellij idea 2019.2

具体安装可搜索安装方法

2022-06-20

linux:CentOS6.9

linux:CentOS6.9

2022-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除