自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 【数据分析】数据思维

是根据用户特征、需求和行为等差异,将用户划分为不同群体的过程,旨在实现精细化运营,提升用户体验和忠诚度。以下是用户分层的关键步骤和模型:用户分层的关键步骤:明确分层目的和可行性,确保用户基数足够。:根据业务需求选择合适的维度,如用户属性、行为、价值等。:通过数据分析验证分类标准的合理性。:结合多个维度评估用户,划分层级。:针对不同层级用户制定差异化的运营策略。:根据最近一次消费、消费频率和消费金额对用户进行分层。:以用户价值或影响力大小进行分层,形成金字塔结构。

2025-01-10 16:12:43 427

原创 SUBSTRING_INDEX()在MySQL中的用法

是 MySQL 中的一个字符串函数,它返回一个字符串,该字符串包含从字符串的开始或结束到指定的子字符串出现指定次数为止的部分。函数在处理 URL、路径或任何需要基于特定分隔符分割字符串的场景中非常有用。,因为函数从字符串的开始处提取了第一个空字符串(实际上是第一个字符)。,因为函数从字符串的开始处提取了第一个和第二个。,因为函数从字符串的开始处提取了第一个和第三个。,因为函数从字符串的开始处提取了第一个和第二个。,因为函数从字符串的结束处提取了最后一个。作为分隔符在字符串中不存在。

2025-01-01 13:59:09 524 1

原创 locate() 在MySQL中的用法

是一个字符串函数,用于返回一个子字符串在另一个字符串中第一次出现的位置。如果子字符串不存在,则返回0。函数在处理字符串查找时非常有用,尤其是在需要确定特定子字符串在字符串中的位置时。这将返回7,因为从第5个字符开始搜索,中的位置是1,从位置1开始搜索。中第一次出现的位置是4。,第一次出现的位置是4。中第一次出现的位置是4。第一次出现的位置是7。

2025-01-01 13:44:17 1010

原创 【数据分析】如何用Excel做数据分析?—Excel透视表最全指南

Excel函数-总【数据分析】如何用Excel做数据分析?—Excel透视表最全指南

2024-12-15 15:18:35 185

原创 classification_report分类报告的含义

可以看出来类别之间相互误分的情况,查看是否有特定的类别相互混淆,能够帮我们调整后续模型,比如一些类别设置权重衰减。

2024-12-02 17:00:56 762

原创 【数据分析】如何根据数据选择图表类型

选择图表类型时,应考虑数据的特点、数据量、数据之间的关系以及你想要传达的信息。最后,实验和反馈也是选择图表类型的重要部分。不同的图表类型可能适用于同一数据集,因此尝试几种不同的图表,并根据它们传达信息的清晰度和效果来选择最佳选项。

2024-11-30 21:33:50 1697

原创 【机器学习】支持向量机SVR、SVC分析简明教程

SVR全称是support vector regression,是SVM(支持向量机support vector machine)对回归问题的一种运用。所以在介绍SVR之前,我们先简单的来了解一下什么是SVM。SVMSVM与logistic分类器类似,也是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。对于下面一个数据集,有两类分别使用×和○来表示。那么我们想要找到一条曲线来区分这两类。

2024-11-30 17:27:28 2625

原创 【机器学习】Bagging和Boosting有什么区别?

总的来说,Bagging通过减少方差来提高模型的稳定性,而Boosting通过减少偏差来提高模型的准确性。两者都是强大的集成学习技术,但它们在实现细节和适用场景上有所不同。

2024-11-27 23:51:01 1183

原创 model_ridge.coef_与model_ridge.intercept_

是在 Python 的 scikit-learn 库中使用岭回归(Ridge Regression)模型时,模型对象的一个属性。这个属性包含了模型训练完成后,每个特征对应的系数(coefficients)。这些系数表示了在岭回归模型中,各个特征对预测目标变量的贡献程度。具体来说,是一个数组,其长度与训练数据中的特征数量相同。数组中的每个元素对应于一个特征的系数,这些系数是通过模型训练过程中的优化算法计算得出的,目的是在最小化损失函数(包括正则化项)的同时,找到最佳的系数值。

2024-11-19 14:08:35 461

原创 get_dumines() 函数,用于将分类变量转换为哑变量

shape_circle、shape_square 和 shape_unknown 是从 shape 列生成的哑变量列,分别表示形状为圆形、正方形和未知的形状。color_blue、color_red 和 color_unknown 是从 color 列生成的哑变量列,分别表示颜色为蓝色、红色和未知的颜色。函数可以将DataFrame中的分类变量(通常是字符串类型)转换为哑变量,每个类别对应一个哑变量列,其中包含1和0的值,表示该类别是否出现。每一列中的1表示对应的类别在该行中出现,0表示没有出现。

2024-11-17 13:52:09 686

原创 from sklearn.feature_selection import SelectKBest | from scipy.stats import pearsonr

和pearsonr是两个在特征选择和统计分析中常用的函数,它们分别来自 scikit-learn 和 scipy 库。

2024-11-14 23:54:44 471

原创 from sklearn.feature_selection import VarianceThreshold.移除低方差的特征来减少数据集中的特征数量

是 scikit-learn 库中的一个特征选择类,它通过移除低方差的特征来减少数据集中的特征数量。这种方法特别适用于删除那些在整个数据集中几乎不变的特征,因为这些特征对于模型的预测能力贡献不大。

2024-11-14 23:51:21 474

原创 from sklearn.preprocessing import Imputer.处理缺失数据的工具

在 Python 的 scikit-learn 库中,Imputer 类是一个用于处理缺失数据的工具。它可以用来填充数据集中的缺失值(通常表示为 NaN 或 None)。类是一个用于处理缺失数据的工具。它可以用来填充数据集中的缺失值(通常表示为。参数指定了沿着哪个轴计算均值(0 表示沿着列,1 表示沿着行)。会计算每一列的均值,并用这些均值来填充相应列中的缺失值。类相同的功能,但是它的 API 更加现代化,并且是。参数指定了要识别为缺失值的数据,的新版本中已经被弃用,推荐使用。参数指定了填充策略,

2024-11-14 23:35:04 636

原创 Excel函数-总

在 Excel中,函数实际上是一个预先定义的特定计算公式。按照这个特定的计算公式对一个或多个参数进行计算,并得出一个或多个计算结果,叫做函数值。使用这些函数不仅可以完成许多复杂的计算,而且还可以简化公式的繁杂程度。如财务函数、日期与时间函数、数值与三角函数、统计函数、查找与引用函数、数据库函数、文字函数、逻辑函数、信息函数等。

2024-11-12 14:24:44 639

原创 数 据 分 析 的 三 种 核 心 思 维

2024-11-11 17:25:28 263

原创 模型 长尾效应

"长尾效应"指的是在一个市场或行业中,那些相对较小、不太受关注或销售量较低的产品或服务,也能够创造出相当大的销售额或利润。这个概念是由克里斯·安德森(Chris Anderson)在他的著作《长尾理论》中提出的。在传统的市场中,通常只有少数几种热门产品或服务能够创造出大部分的销售额或利润,而其他大量的产品或服务则被忽视或被视为不重要。然而,随着互联网和数字技术的发展,市场变得更加分散和个性化,消费者的需求也变得更加多样化和细分化。

2024-11-10 13:09:33 920

原创 【数据分析】如何构建指标体系?

实际工作中,想要准确说清楚一件事是不容易的。例如,你在金融公司工作,工作中可能会听到这样的对话:“大概有1万多人申请贷款吧”“有很多人都没有申请通过”“感觉咱们的审核太严了”。同事之间这样闲聊说话没什么问题,但是如果是向领导汇报或者是数据分析师在回答业务部门问题的时候就不能这么说了,一定要用准确的数据和指标来描述清楚。5月4日新申请贷款用户10450人,超目标达成1450人;5月4日当日申请贷款用户10450人,当日通过2468人;

2024-11-05 15:58:21 1975

原创 电商公司应对增长疲软的策略

例如,贵州电商云公司通过构建“平台+服务+数据”的全产业链服务体系,实现了数字经济与实体经济的深度融合,提升了用户规模和产业服务能力。:电商可以通过多种促销方式吸引顾客,如买赠、限时购、特价、加价购、预售、满减、满赠、满件折和套装等,以提高支付转化率、减少库存量、提升客单价等。:电商企业需要进行有效的产品推广与宣传,通过线上线下的广告宣传、促销活动、社交媒体营销等手段,提升产品的知名度和美誉度。通过上述策略,电商公司可以在增长疲软的市场环境中寻找新的增长点,提升竞争力,并实现可持续发展。

2024-11-04 09:37:27 375

原创 将分类标签转换为模型可以处理的数值格式

将分类标签转换为模型可以处理的数值格式是数据预处理的关键步骤,尤其是在处理监督学习任务时。

2024-11-03 17:27:49 1041

原创 df_new_last.iloc[:,-1]与df_new_last.iloc[:,:-1]

这两个表达式在 Pandas 中用于选择 DataFrame。返回除了最后一列之外的所有列。以下面的 DataFrame。

2024-11-03 16:43:35 231

原创 【机器学习】连续属性离散化与sklearn.preprocessing.KBinsDiscretizer

是 scikit-learn 库中的一个类,用于将连续数据离散化成区间(bins)。这个类通过将特征值分配到 k 个等宽的区间(bins)来实现离散化,并且可以配置不同的编码方式来输出结果。

2024-11-03 16:11:09 675

原创 【数据分析】怎么提升GMV

GMV 指成交总额,也就是零售业说的“流水”,需要注意的是,成交额包括销售额,取消订单金额,拒收订单金额和退货订单金额。

2024-11-03 14:40:05 1144

原创 电商行业的高附加产品举例

包括电脑、数码产品等,这些产品因其技术含量高、更新换代快,通常具有较高的附加值。:尤其是高端品牌和设计师品牌的服饰鞋履,因其品牌效应和设计价值,成为高附加值产品。:高品质的家具和家居装饰品,因其设计和材质,往往具有较高的市场价值。:包括高端的户外运动服饰、装备等,这些产品因其专业性和品质,受到特定消费群体的青睐。:高端美妆品牌的产品,因其品牌影响力和产品质量,通常具有较高的附加值。:高品质的母婴用品,尤其是那些注重安全性和舒适性的产品,因其对特定消费群体的重要性,通常具有较高的附加值。

2024-10-29 13:33:02 1158

原创 【MySQL】字符串截取函数:substr|substring 的区别

SUBSTR和SUBSTRING是在 SQL 中用于从字符串中提取子字符串的函数,它们在大多数数据库系统中都可用,并且功能相似,但它们的语法和参数顺序可能有所不同。

2024-10-20 18:01:15 2434

原创 【MySQL】to_date()日期转换

TO_DATE()是一个在 SQL 中广泛使用的函数,用于将字符串转换为日期格式。不同的数据库系统(如 Oracle、SQL Server、PostgreSQL、MySQL 等)对TO_DATE()函数的支持和语法可能有所不同,但基本思想是一致的:将一个表示日期和/或时间的字符串转换为数据库可以识别的日期类型。

2024-10-20 17:00:49 3170 1

原创 【mysql】ISNULL、NVL、IFNULL和COALESCE函数的使用方法

ISNULL用于SQL Server和Sybase。NVL用于Oracle。IFNULL用于MySQL和MariaDB。COALESCE用于SQL ServerPostgreSQLOracleMySQL和MariaDB。这些函数的主要目的是处理空值,确保查询结果的准确性和一致性。【SQL】NVL函数的用法和MySQL中有什么不同。

2024-10-20 14:25:27 931

原创 【面试题】生活中有无用过统计学的知识解决问题?

统计学在我们的日常生活中扮演着重要的角色,帮助我们做出更明智的决策。这些例子展示了统计学如何帮助我们在日常生活中做出基于数据的决策。

2024-10-17 21:42:48 220

原创 什么是北极星指标?什么是虚荣指标?

是指导公司战略和产品发展方向的关键指标,它反映了产品的核心价值和用户活跃程度。北极星指标通常与公司的长期成功密切相关,是团队努力达成的目标。它们可能会误导公司的战略决策,因为它们不能提供足够的信息来指导产品或服务的改进。北极星指标(North Star Metric)和虚荣指标(Vanity Metric)是衡量产品或公司表现的两种不同类型的指标。通过这些步骤,可以帮助团队确定最能反映产品成功和指导公司战略的北极星指标。一般来说,不同的商业模式中会有一些常用的北极星指标——

2024-10-17 21:08:16 576

原创 【数据分析】数据分析的流程是怎么样的?

数据分析的流程可以分解为多个详细步骤,每个步骤都有其特定的目的和方法。下面我将通过一个具体的例子来说明这一流程:例子:分析一家零售商的销售数据,以提高销售额。

2024-10-17 16:04:38 895

原创 【数据分析】影响系数 =(今日量-昨日量)/(今日总量-昨日总量)

影响系数是一个用来衡量两个相关变量之间变化关系的指标。的计算公式是:这个系数可以用来衡量一个变量的变化对另一个变量变化的影响程度。如果影响系数接近1,意味着两个变量的变化趋势非常相似;如果接近0,则意味着变化趋势不相关;如果为负数,则意味着变化趋势相反。假设一个商店昨天销售了10个苹果和5个橙子,总共销售了15个水果。今天,商店销售了12个苹果和8个橙子,总共销售了20个水果。计算苹果的影响系数:从这个例子中可以看出,橙子的销售量变化对总销售量变化的影响大于苹果。

2024-10-17 14:49:01 1623

原创 指标、维度和度量的区别和联系?

在数据分析和商业智能领域,指标、维度和度量是三个常用的概念,它们在数据分析过程中扮演着不同的角色,但又相互关联。

2024-10-16 17:23:56 1103

原创 【数据分析】估算问题(费米估算问题)

估算纽约市一天内使用多少个塑料袋。

2024-10-16 16:19:57 844

原创 【数据分析】皮尔逊相关系数、斯皮尔曼等级相关系数

皮尔逊相关系数(Pearson correlation coefficient)是衡量两个变量之间线性关系强度和方向的统计指标。

2024-10-15 17:27:48 735

原创 【数据分析】参数检验与非参数检验

非参数检验不依赖于总体分布的具体形式,适用于数据分布未知或非正态分布的情况。8.

2024-10-09 10:52:21 1223

原创 【数据分析】正态分布与标准正态分布

1. 正态分布与标准正态分布的区别正态分布和标准正态分布是统计学中非常重要的概念,它们之间有密切的关系,但也有一些关键的区别:1.1 正态分布定义:正态分布,也称为高斯分布,是一种连续概率分布。它是自然和社会科学中最常见的概率分布之一。参数:正态分布由两个参数定义:均值(μ):分布的中心位置。标准差(σ):分布的宽度或离散程度。形状:正态分布是对称的,并且以均值为中心。曲线:正态分布的图形是一个钟形曲线,也称为正态曲线。应用:正态分布在现实世界中非常常见,如人的身高、体重、考试成绩

2024-10-08 10:48:07 4674

原创 【数据分析】DataFrame.query()

在编程中, 方法通常与数据处理库相关,特别是在使用Pandas处理数据时。Pandas是一个强大的Python数据分析库,它提供了快速、灵活和表达能力强的数据结构,旨在使数据清洗和分析工作变得更加简单易行。在Pandas中, 方法允许你使用字符串表达式来筛选DataFrame中的数据。这个方法非常适合于快速的交互式数据分析,因为它允许你使用类似于SQL的查询语法来选择数据。expr:查询表达式,字符串格式。inplace:布尔值,默认为False。如果为True,则修改原始DataFrame。kwa

2024-10-02 23:16:22 1796 1

原创 【MySQL】CAST()在MySQL中的用法以及其他常用的数据类型转换函数

CAST()在 MySQL 中用于将一个表达式的类型转换为另一个类型。这在处理不同类型的数据时非常有用,比如将字符串转换为数字,或者将浮点数转换为整数等。

2024-09-25 15:39:09 6121

原创 【MySQL】regexp_replace在MySQL以及regexp extract all在MySQL的用法

在MySQL中,函数用于在字符串中搜索正则表达式模式,并用指定的字符串替换该模式的每个匹配项。

2024-09-24 17:11:14 1933

原创 【SQL】累计统计方法,使用SQL详细写出

累计统计通常指的是在一组数据中,计算每个数据点的累积总和或者累积其他统计量。在SQL中,这通常可以通过使用窗口函数(如)来实现。

2024-09-24 00:51:03 3419

原创 【SQL】总结Select语句中用来连接字符串的方法

每种方法都有其适用场景,选择哪种方法取决于你的具体需求和使用的数据库系统。

2024-09-23 22:42:40 1068

机器学习之十大集成学习模型

机器学习之十大集成学习模型

2024-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除