自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rubyw的博客

努力学习成长!

  • 博客(195)
  • 资源 (4)
  • 收藏
  • 关注

原创 SQL优化的方法有哪些?

有两个表, customers ( customer_id , name )和 orders ( order_id , customer_id , amount )。优化后:可以先对 orders 表按照 customer_id 进行分组求和,得到一个临时表,然后再与 customers 表进行连接,提高效率。假设有一个用户表 users ,包含 id(用户 ID ,主键)、name(用户名)、age(年龄)和 city(所在城市)等列。,这样会返回该客户的所有订单然后再排序,数据量可能很大。

2024-07-22 18:36:40 629

原创 怎么通过聚类分析进行客户画像精准营销?

需注意,这只是一个简单的示例,实际情况中数据集的特征可能更多样,需要更深入地分析和理解客户行为,以制定更有效的营销策略。例如,一家银行根据客户的存款金额、贷款情况、信用卡消费等指标,使用 K-Means 聚类算法将客户分为高价值客户、潜在高价值客户、普通客户等群组。总之,通过聚类分析进行客户画像精准营销需要综合运用数据分析技术和营销思维,不断优化和改进,以实现最佳的营销效果。例如,一家电商企业可以收集客户在过去一年中的购买记录,包括购买的商品类别、价格区间、购买的时间节点等。聚类分析与客户画像构建。

2024-07-22 00:19:33 863

原创 Hive SQL处理时间格式都有哪些

不同的数据库在时间处理函数和格式上可能会有细微的差异,但上述方法在 Hive SQL 中是较为常用的。

2024-07-16 00:32:44 188

原创 SQL常用的函数有什么

这些只是 SQL 中常用函数的一部分,具体的使用取决于您的数据库管理系统(如 MySQL、Oracle、SQL Server 等)以及具体的业务需求。

2024-07-16 00:24:31 310

原创 常用的linux命令是是什么

这只是一小部分常用的 Linux 命令,还有许多其他命令可用于各种不同的任务。:实时显示系统中资源使用情况和进程信息。:在文件中搜索指定模式的文本。:列出目录中的文件和子目录。:查看文件内容并在终端显示。:移动或重命名文件和目录。:更改文件或目录的权限。:在指定目录下查找文件。):查看网络接口配置。:分页查看文件内容。

2024-07-15 01:35:25 266

原创 数据分析师笔试试卷三:Excel、SQL、Python、算法

例如,有一组学生的数学成绩(连续变量)和性别(分类变量),要研究性别对数学成绩的影响,可以使用 t 检验;一组学生,其中一部分是男生,一部分是女生,同时有他们的数学考试成绩。在控制每天学习时间这个变量的影响下,计算数学成绩和语文成绩之间的偏相关系数,以更准确地了解它们之间的直接关系。:当二分变量是人为划分的(例如,考试成绩 60 分以上为及格,60 分以下为不及格),与连续变量之间的相关性可用二列相关系数。例如,在研究教育程度与收入的关系时,控制工作年限这个变量的影响,计算出的就是偏相关系数。

2024-07-15 01:28:40 898

原创 如何将ipynb文件转为md文件格式方便上传到自己的CSDN博客中

【代码】如何将ipynb文件转为md文件格式方便上传到自己的CSDN博客中。

2024-07-12 00:45:24 112

原创 EXCEL、SQL、Python去重的方式分别是什么?

DISTINCTcolumn1column1column2GROUP BYMIN()MAX()column1column2EXISTScolumn1column2这些方法可以根据具体情况选择合适的去重策略,在处理复杂的数据去重需求时特别有用。如果有特定的数据处理场景或者更多的问题,请随时告诉我!setpandaspandas在 Python 中,通常使用不同的方法来处理列表或者数组中的唯一值。这取决于你使用的数据结构和需要的功能。

2024-07-10 01:11:03 851

原创 数据分析师笔试试卷二:SQL、Python、线性回归算法预测

提交时请在文件名称前加上你的名字。

2024-07-10 00:24:18 712

原创 数据分析师笔试试卷一:Excel、SQL、Python、数据分析思维

SUMIFS主要用于根据多个条件进行求和,适合处理具有多个筛选条件的数据。SUMPRODUCT主要用于对数组或范围中对应元素进行乘法后求和,适合进行复杂的数组运算和统计计算,如加权求和、多条件计算等。举例说明假设你有一个员工信息表,包括员工姓名和对应的工资。你需要根据员工姓名查找他们的工资。可以使用 VLOOKUP 函数来实现,或者使用 INDEX-MATCH 组合来进行更灵活的查找。=VLOOKUP("张三", A2:B100, 2, FALSE)

2024-07-09 23:34:12 1070

原创 在进行效果评估分析中,为什么不直接对比结果差异而是通过统计学检验呢?

通过统计学检验方法,我们能够更科学、准确地评估A/B测试的结果,确保结论具有统计显著性,从而为实际决策提供可靠的依据。

2024-07-09 10:53:04 400

原创 卡方检验的使用场景

假设你想研究不同的短信内容(变量1:A/B组)是否会影响客户的回复情况(变量2:回复/未回复)。通过以上步骤和示例,可以确定在何种情况下使用卡方检验,以及如何实施和解读卡方检验的结果。用于检验观测数据与理论分布(预期分布)之间的差异程度,判断观测频数是否符合某种分布。假设你有一个理想的客户分布(理论分布),需要检验实际客户的回复是否符合这种分布。根据计算得到的卡方统计量和自由度,在卡方分布表中查找对应的p值。用于检验一个分类变量的实际分布是否与预期分布相符。计算每个单元格的期望频数。

2024-07-09 10:36:46 395

原创 A/B test:评估短信营销效果分析

通过精心设计的A/B实验,可以科学地评估不同话术在移动通信外呼或短信营销中的效果,进而优化营销策略,提升客户响应率和转化率。

2024-07-09 10:35:24 578

原创 假设检验:评估价格调整效果分析

使用统计软件(如Python中的SciPy库或R语言)计算选择的假设检验方法的检验统计量。通过以上步骤,可以使用统计方法(如假设检验)来客观地评估价格调整对指标变化的影响是否显著,并为决策提供数据支持。在这个示例中,根据计算得到的p值,可以决定是否拒绝零假设,进而评估价格调整对转化率变化的显著性影响。假设我们从数据库中提取了两组数据:价格调整前的转化率和价格调整后的转化率。根据您的数据类型和问题,选择适当的假设检验方法。通常情况下,备择假设是我们想要验证的,即价格调整引起了指标变化。

2024-07-09 10:18:49 424

原创 电视内容推荐效果分析

通过详细的用户行为分析,可以深入了解不同频道的推荐效果,识别推荐系统的优劣,并制定针对性的优化策略。结合点击率、转化率、观看时长和用户反馈等多维度指标,可以全面评估推荐系统的表现,并通过实验设计不断改进推荐策略,提升推荐系统的整体效果和用户满意度。

2024-07-09 00:55:11 806

原创 生存分析:简单案例介绍

通过详细的会员生存概率分析,可以深入了解影响会员留存的关键因素,制定有效的会员保留策略,提高会员的长期价值和整体盈利能力。这种分析不仅帮助识别高风险群体,还能优化会员服务和内容策略,提升用户满意度和忠诚度。

2024-07-09 00:51:45 971

原创 指标预警设置的方法及流程

如果你有具体的业务场景或需要进一步的帮助,可以告诉我更详细的信息。:为每个指标设定预警阈值,这些阈值可以是固定的数值,也可以是基于历史数据计算出的动态阈值。:根据预警的效果和业务需求,不断调整阈值和预警策略,确保预警系统能够及时准确地反映业务情况。:确定如何通知相关人员,常见的方式包括邮件、短信、即时通讯工具(如微信、Slack)等。:决定多长时间检查一次指标,频率可以是实时、每日、每周等,取决于业务需求。:选择需要监控的关键指标(KPIs),如销售额、用户增长率、网站流量等。

2024-07-04 23:51:47 357

原创 给指标打权重的几大方法

给指标打权重的方法有很多,选择适当的方法取决于具体的应用场景和数据特点。通过合理分配权重,可以提高模型的准确性和解释性。

2024-07-04 23:46:29 358

原创 特征处理:WOE分箱

WOE分箱是一种通过将连续变量或分类变量转化为具有区分能力的分箱,并计算每个分箱的证据权重的方法。通过这种方法,可以提高模型的预测能力,特别是在信用评分和风险建模中被广泛应用。

2024-07-04 23:43:15 953

原创 数据处理:分箱

分箱(Binning),也称为离散化(Discretization),是数据预处理中的一种技术,主要用于将连续型变量转换为离散型变量。分箱的主要目的是减少数据的复杂性,增强模型的稳定性和可解释性,特别是在使用一些对连续变量不太敏感的模型时(如决策树)。

2024-07-04 23:35:06 307

原创 机器学习十大常用算法的比较:原理及主要特点、优缺点、应用场景

这些算法各有其独特的特点和适用场景,选择合适的算法取决于数据的特性、问题的性质以及需要达到的目标。

2024-07-04 22:25:24 253

原创 用户生存分析的主要方法:Kaplan-Meier估计法

通过举例说明Kaplan-Meier估计法在会员用户生存分析中的应用,可以帮助我们理解如何使用该方法分析和预测会员用户的留存时间。

2024-07-03 00:23:30 551

原创 生存分析(Survival Analysis)的介绍和解释

生存分析(Survival Analysis)是一种统计方法,用于分析和预测特定事件的发生时间,通常用于医疗研究、工程可靠性、金融风险管理等领域。生存分析的主要目标是研究时间到事件(如死亡、故障、违约等)发生的时间分布。

2024-07-03 00:18:22 323

原创 机器学习:时间序列分析模型的原理介绍

时间序列分析是一种专门用于处理按时间顺序排列的数据的统计方法,旨在揭示数据内在的结构、模式和趋势。时间序列分析模型主要用于预测未来值、描述数据的行为以及发现数据中的周期性或趋势。

2024-07-02 18:33:01 630

原创 机器学习:神经网络模型的简单介绍

神经网络(Neural Network,NN)是一种受人类神经系统启发而设计的机器学习模型,特别适用于处理复杂的非线性关系和大规模数据集。它由多层神经元组成,每层神经元通过权重连接到下一层,通过学习调整这些权重来实现从输入到输出的复杂映射关系。

2024-07-02 18:20:25 343

原创 机器学习:KNN(K-近邻)算法原理的介绍及应用场景

K近邻算法(K-Nearest Neighbors,KNN)是一种基本且直观的监督学习算法,用于分类和回归任务。其基本思想是基于特征空间中的距离度量,在训练集中找到与新样本最近的K个邻居,然后通过这些邻居的标签来决定新样本的类别或者值。

2024-07-02 18:14:50 418

原创 机器学习:SVM支持向量机的原理介绍及应用场景

支持向量机(Support Vector Machine,SVM)是一种常用于分类和回归分析的监督学习模型。它的基本原理是通过找到一个最优的超平面来进行分类或者回归,使得样本点与超平面之间的间隔(margin)最大化。

2024-07-02 18:06:21 444

原创 不同集成学习算法的比较:随机森林、AdaBoost、XGBoost、LightGBM

这个表格列出了几种常见的集成学习算法,包括AdaBoost、Gradient Boosting、XGBoost、LightGBM、CatBoost和Random Forest。它们各自的主要特点、应用场景、并行处理支持、稳定性和优化策略有所不同,选择适合的算法取决于具体的数据和任务需求。

2024-07-02 17:38:03 392

原创 机器学习:集成学习:LightGBM算法

LightGBM(Light Gradient Boosting Machine)是一个基于梯度提升框架的高效机器学习算法,由微软开发,专门用于大规模数据集和高效率的处理。它通过基于直方图的决策树算法来加快训练速度,提高模型的准确性。以下是关于LightGBM的详细介绍,包括其原理、优势、实现细节以及应用场景。

2024-07-02 17:32:39 409

原创 集成学习提升法(Boosting):Adaboost和XGBoost的比较

总体来说,AdaBoost是一种经典的提升算法,简单而有效;而XGBoost则是在此基础上进行了进一步优化和扩展,提供了更高的性能和灵活性,尤其在大规模数据集和复杂模型的处理上有显著优势。

2024-07-02 17:27:35 433

原创 机器学习:集成学习的提升法(Boosting):XGBoost(二)

XGBoost(eXtreme Gradient Boosting)是一种基于决策树的优化的集成学习算法,特别适用于回归和分类问题。它在各种数据集上表现出色,并在数据科学竞赛中被广泛使用。总结来说,XGBoost通过优化提升树的构建过程和模型的正则化,实现了在大规模数据集上高效、准确的预测能力,是目前应用最广泛的集成学习算法之一。

2024-07-02 17:25:06 352

原创 机器学习:集成学习的提升法(Boosting):AdaBoost(一)

AdaBoost(Adaptive Boosting)是一种集成学习方法,旨在提高分类器的性能。它通过组合多个弱分类器(通常是决策树)来构建一个强分类器。总结来说,AdaBoost通过反复学习和调整样本权重,使得分类器能够逐步提升准确率,是一种有效的集成学习方法。

2024-07-02 16:53:22 418

原创 机器学习:集成算法的装袋法(Bagging):随机森林(Random Forest)

随机森林通过结合多个决策树的结果,提供了强大的预测能力和鲁棒性。它在处理高维数据、抗过拟合和处理缺失值方面具有显著优势,广泛应用于各种分类和回归任务中。通过合理的参数设置和特征选择,随机森林可以在多种应用场景中提供卓越的性能。

2024-07-02 16:17:11 405

原创 机器学习:决策树算法的介绍、原理及应用场景——ID3、C4.5、CART

算法特征选择标准支持连续特征支持缺失值树的结构主要应用ID3信息增益否否多叉树分类C4.5增益比是是多叉树分类CART基尼指数 / MSE是是二叉树分类和回归CHAID卡方统计量部分部分多叉树分类MARS逐步回归分裂标准是是分段线性模型回归随机森林多棵树的集成是是集成多棵树分类和回归GBT梯度提升的树集成是是集成多棵树分类和回归不同决策树算法在特征选择标准、支持的特征类型、处理缺失值的能力以及树的结构上存在差异。

2024-07-02 11:41:12 890

原创 机器学习:分类模型的评估指标

在机器学习中,评估分类模型的性能是至关重要的环节。选择合适的评估指标能够帮助我们全面了解模型的表现,尤其是在不同的数据分布和应用场景下。下面详细介绍一些常用的分类模型评估指标。混淆矩阵(confusion matrix)是模式识别领域中一种常用的表达形式。它描绘样本数据的真实属性与识别类型之间的关系,是评价分类器性能的一种常用方法。分类模型对测试集进行预测而得出的准确率并不能很好地反映模型的性能,为了有效判断一个预测模型的性能表现,需要结合真实值,计算出准确率,精确率,召回率,F1值等指标来衡量。

2024-07-02 11:10:14 948

原创 聚类算法的介绍、原理及应用场景—K-means聚类、层次聚类、密度聚类、模型聚类、图聚类

K-means是最常用的聚类算法之一。初始化:随机选择K个数据点作为初始质心。分配数据点:将每个数据点分配给最近的质心,形成K个簇。更新质心:计算每个簇的质心,更新质心位置。迭代:重复步骤2和3,直到质心不再变化或达到最大迭代次数。# 生成示例数据# 训练K-means模型# 预测聚类结果# 可视化聚类结果plt.show()聚类算法在各个领域中有广泛应用。选择合适的聚类算法需要考虑数据的特点和具体的应用需求。对于数据量大且簇形状为球形的情况,K-means 是一种高效的选择。

2024-07-02 10:45:45 1125

原创 LDA主题分析—情感分析案例

通过以上步骤,我们完成了对投诉内容的情感分析。从数据读取、预处理,到情感分析、结果展示,完整地实现了一个情感分析流程。该流程可以根据具体需求进行调整和扩展,例如使用更高级的情感分析模型(如BERT)来提高分析的准确性。

2024-07-02 10:16:59 142

原创 LDA主题分析的原理、步骤和实现

当然可以!LDA 主题模型是一种强大的工具,用于从大量文本数据中发现隐藏的主题。让我们更详细地介绍它的原理、步骤和实现。

2024-07-02 10:15:20 297

原创 CDA二级(Level II)数据分析师——考试内容梳理四

时更偏向解释的分析时,需要进行因子分析,而类似于综合排名、综合打分这样无需进行解释的分析可以进行。m,输出模型的残差图:plt.scatter(m.predict(data),m.resid),进行主成分分析(PCA)之前,如果变量的取值范围相差很大,先对每个变量进行中心化,然后使用。下,实际算出来的统计量的值为2.75,P=T.DIST(2.75:2:TRUE)EXCEL计算:α±Z0.025*STDEV.S(A:A)/(AQRT(n),df.drop(["A’,‘B’].axix=1),指定列。

2024-06-18 23:06:05 566

原创 CDA二级(Level II)数据分析师——考试内容梳理三(简单重点案例)

负样本中被误认为正样本的概率 FP/FP+TN。:正样本中被预测为正样本的概率 TP/TP+FN。:预测的正样本中有多少预测正确 TP/TP+FP。SSR的MS=6.44/1=6.44(4):真正的正样本中有多少预测正确。SSR的自由度为n,模型参数个数1。为预测3中场景销量,这组数据的。SSE的自由度为18。

2024-06-18 19:21:20 307

武汉echarts地图js文件

武汉echarts地图js文件

2023-10-27

苏州echarts地图js文件

苏州echarts地图js文件

2023-10-27

MongoDB-windows-x86-64-5.0.20

MongoDB5.0安装包

2023-09-01

Linux: CentOS 6.8

Linux: CentOS 6.8

2022-06-20

Tableau 10.5.0

Tableau 10.5.0

2022-06-20

intellij idea 2019.2

具体安装可搜索安装方法

2022-06-20

linux:CentOS6.9

linux:CentOS6.9

2022-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除