![](https://img-blog.csdnimg.cn/direct/21e7fe65f96c4b7e97e802de89b31869.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
简明数据分析进阶路径
文章平均质量分 88
本专栏专为对数据分析感兴趣的朋友们设计,旨在分享如何快速成长为初中级数据分析师的实用经验和技巧。从基础知识到进阶技能,带你一步步掌握数据分析的核心要领,轻松应对工作挑战。每周更新一篇,不容错过!
阿桨
人生何处不青山
展开
-
【八 (3)指标体系建设-故障运营管理指标体系的关键成功因素】
故障运营管理体系建设和服务测量是相互关联的管理活动,它们共同致力于提升组织的运营效率和服务质量,这里我们试试能不能参考服务测量的关键成功因素关联出故障运营管理指标体系的关键成功因素。从服务测量的关键成功因素看故障运营管理体系的关键成功因素原创 2024-07-19 09:34:06 · 343 阅读 · 0 评论 -
【八 (2)指标体系建设-故障指标体系建设步骤】
ODS的数据特点包括不断更新和易丢失,不存储历史数据,只反映当前实时性的信息,并且存储细节性数据,很少有汇总数据。ODS的主要功能包括作为业务系统和数据仓库之间的隔离地带、降低业务系统的压力、满足从微观角度查询细节数据的要求、实时性的数据整合功能、检查数据质量的功能,以及为企业提供统一的数据视图和数据共享的功能。同时,由于DWD层存储的是最原始的数据,因此数据质量较高,能够保证数据的完整性和准确性。在设计过程中,应遵循最小化原则,合理划分数据域和维度,减少不必要的字段和关系,提高数据的可读性和可维护性。原创 2024-04-19 16:08:02 · 618 阅读 · 0 评论 -
【八 (1)指标体系建设-构建高效的故障管理指标体系】
ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的配置项失效也是一种故障。指标是用于衡量、量化和评估特定目标或业务绩效的度量标准或参数。以定量的方式来衡量和跟踪关键数据,以便评估绩效、进展和效果。确定影响故障管理绩效的关键要素,如故障响应时间、恢复时间、故障率等,并为每个要素定义相应的指标。故障管理指标体系的构建是一个关键的过程,旨在通过定义、收集和分析指标数据,提供对故障管理绩效的量化评估和监控。原创 2024-04-15 22:00:19 · 2809 阅读 · 0 评论 -
【七 (5)FineBI FCP模拟试卷-母婴行业新零售连带消费分析】
本次案例需要分析线上渠道引流到店二次消费,对下游母婴连锁店的业绩贡献有多大,并从人-货-场三个角度分析找到提高贡献度的策略;在母婴行业中,线下渠道的销售表现远优于线上,而线上渠道往往作为线下渠道的引流点,有利于促成用户到店消费,帮助提升门店业绩;人:从小程序来源场景分析活跃会员数占比和页面访问量占比,分析不同支付核销天数差的连带消费会员数和连带单客产值。货:区分线上会员和连带消费会员群体-2级品类销售金额 ABC分析、销售额TOP20的品牌分析。关键指标统计展示(见数据说明)原创 2024-04-14 18:30:17 · 847 阅读 · 0 评论 -
【七 (4)FineBI FCP模拟试卷-电站数据分析】
4.地图的数据标签需要包含省份、电站名称、电站状态、发电量、电站总电量相关信息;5.电站负责人、电站状态的装机容量数据需要以表格的形式统计,并且悬乎在地图区域;7.发电效率、年售电完成比、售电回款比、管理费用比、运维费用比需要添加闪烁效果。1.年度总发电量和年售电完成率不和其他组件联动,其他组件之间可以自由联动;3.最近装机容量需要自动统计当前电站事实表发电数据中的最近日期的装机容量;2.最近日期需要自动显示当前电站事实表发电数据中的最近日期;近12个月电站月发电完成比。近12个月电站月售电完成比。原创 2024-04-14 08:00:00 · 1025 阅读 · 0 评论 -
【七 (3)FineBI FCP模拟试卷-商品捆绑销售策略分析】
当 A商品名称 和 B商品名称 相同时,它们是同一个产品,计算支持度、置信度、提升度没有意义。使用点图进行商品关联分析,展示不同商品组合相对于平均支持度和平均置信度的位置,并且展示提升度的大小;使用表格进行关联商品、支持度、置信度、提升度进行相关数据的最终呈现。使用矩形块图,进行支持度、置信度、提升度分析;MeaNames:商品名称。订单ID:交易订单ID。原创 2024-04-13 11:13:12 · 1050 阅读 · 0 评论 -
【七 (2)FineBI FCP模拟试卷-平台新增用户留存分析】
通过对“平台新增用户留存分析.xlsx”中的用户平台登录和激活信息数据进行分析来计算出平台每日的 “新增用户数” 、“次日留存人数”、“七日留存人数”、“十五日留存人数”,“一周内留存率”、“二周内留存率”、“三周内留存率” 指标值并通过表格及图形实现相应效果。N周内留存率:指新增用户日之后,"注册(激活)-登录时间差"为 1~7N(含) 天的登录用户数 / 新增用户。N日留存人数:指新增用户日(T)之后的第N日,依然登录的用户数。留存率 = 新增用户中登录用户数/新增用户数 * 100%原创 2024-04-13 10:02:51 · 788 阅读 · 0 评论 -
【七 (1)FineBI FCP模拟试卷-股票收盘价分析】
YEAR(Date) :返回Date年份MONTH(Date)+1 :返回Date的后一个月DATE(YEAR(Date),MONTH(Date)+1,1) :返回Date的后一个月第一天DATE(YEAR(Date),MONTH(Date)+1,1)-1 :返回Date月份的最后一天日期:当Date是月份的最后一天日期时返回Adj Close。原创 2024-04-13 09:44:46 · 678 阅读 · 0 评论 -
【六 (6)机器学习-分类任务-kaggle泰坦尼克号宇宙飞船实战使用BayesianOptimization搜索参数并用SequentialFeatureSelector进行特征选择】
使用BayesianOptimization搜索参数并用SequentialFeatureSelector进行特征选择原创 2024-04-11 09:55:32 · 403 阅读 · 0 评论 -
【六 (5)机器学习-分类任务-kaggle泰坦尼克号宇宙飞船实战】
分类任务是机器学习中的一个基本任务,其核心目的是根据输入数据的特征,将数据分配到预先定义的类别或标签中。在分类任务中,首先会收到一个包含多个属性的数据集,每个数据点或记录都由一组属性(特征)和一个类标号(目标属性)组成,类标号是用于指示数据点所属类别的一组离散值。分类任务的目标是学习一个目标函数(也称为分类模型),该函数能够将数据集中的每个属性集映射到一个特定的类标号。这个分类模型可以用于描述性建模,解释不同类中的对象,也可以用于预测性建模,预测新数据的类标号。原创 2024-04-11 09:54:24 · 1913 阅读 · 0 评论 -
【六 (4)机器学习-回归任务-鲍鱼年龄预测xgboost、lightgbm实战】
XGBoost(Extreme Gradient Boosting)是一种基于梯度提升决策树的优化分布式梯度提升库。它是大规模并行boosting tree(提升树)的工具,它是用于解决许多数据科学问题(如分类,回归,排名等)的有效,便携和灵活的机器学习算法。XGBoost通过并行化实现了更快的训练速度,同时也通过优化算法减少了过拟合。它内置了正则化项,能够控制模型的复杂度,从而防止过拟合。此外,XGBoost还支持列抽样,这不仅能降低过拟合,还能减少计算。原创 2024-04-06 11:01:26 · 1263 阅读 · 0 评论 -
【六 (2)机器学习-EDA探索性数据分析模板】
EDA(Exploratory Data Analysis)即探索性数据分析,EDA通过可视化、统计和图形化的方法,对数据集进行全面的、非形式化的初步分析,帮助分析人员了解数据的基本特征,发现数据中的规律和模式。这有助于获取对数据的直观感受和深刻理解,为后续的数据处理和建模提供基础。原创 2024-04-06 10:47:02 · 578 阅读 · 0 评论 -
【六 (3)机器学习-机器学习建模步骤/kaggle房价回归实战】
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。原创 2024-04-02 16:07:56 · 3067 阅读 · 0 评论 -
【六 (1)机器学习-机器学习算法简介】
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。机器学习的主要任务是通过分析大量数据,使计算机能够自动进行预测和决策。其核心思想是利用算法和统计学的方法让计算机在没有人类干预的情况下从数据中“学习”到模式,并使用这些模式来进行自主的决策。原创 2024-04-02 16:02:58 · 686 阅读 · 0 评论 -
【四 (7)可视化实战-微信聊天记录可视化】
最终我们需要以下字段 Createtime | 月份 | 日期 | 周几 | 小时 | IsSender | StrContent | 消息内容分类 | 消息长度 | 每轮对话ID | 情感得分。然后我可以探索哪些信息呢,根据时间戳,我可以探索聊天记录的时间分布情况,根据发送接收标识,我可以将两者的数据进行对比,根据信息内容,我可以看出各类信息的组成。我准备探索消息的月/日/周/时分布情况,两者的平均消息长度、消息长度分布图,每次对话的消息数,两者发起对话的比例,两者的词频分析,情感分析。原创 2024-03-28 17:17:26 · 815 阅读 · 0 评论 -
【五 (5)统计学知识-假设检验python代码实现】
假设检验的基本思想是基于小概率反证法思想。具体来说,它首先对总体的某项或某几项参数做出某种假设,然后基于样本数据计算统计量,并根据预先设定的显著性水平来判断这个假设是否成立。在这个过程中,如果所假设的某种小概率事件在一次试验中发生了,那么就有理由怀疑原假设的真实性,从而拒绝原假设。这种推理方法类似于反证法,即先假设某命题成立,然后通过逻辑推理或实验证据来验证这个假设的正确性。原创 2024-03-28 16:35:06 · 489 阅读 · 0 评论 -
【五 (4)统计学知识-抽样与置信python代码实现】
在统计学中,抽样是指从总体中选取一部分个体作为样本进行研究的过程。抽样的重要性在于,它允许我们通过研究样本的特性来推断总体的特性,而无需对每一个个体都进行研究。这种方法不仅节省了大量的时间和资源,而且在很多情况下也是实际可行的唯一方式。原创 2024-03-20 11:10:09 · 966 阅读 · 0 评论 -
【五 (2)统计学知识-集中趋势分析与分散和变异性描述代码实现】
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。原创 2024-03-19 10:16:39 · 1193 阅读 · 0 评论 -
【五 (1)统计学知识-初识统计数据】
统计数据是统计学中的一个核心概念,它指的是在统计活动中所搜集到的各种原始和整理后的数字资料的总称。这些数据可以是定量的,也可以是定性的,它们被用来描述、分析、推断和预测各种社会、经济、自然现象等。原创 2024-03-19 10:10:17 · 778 阅读 · 0 评论 -
【四 (4)数据可视化之 Ploty Express常用图表及代码实现 】
plotly是一个基于javascript的绘图库,python语言对相关参数进行了封装,ploty默认是生成HTML网页文件,通过浏览器查看,也可以在jupyter notebook中显示。原创 2024-03-15 10:36:04 · 940 阅读 · 1 评论 -
【四 (3)数据可视化之 Seaborn 常用图表及代码实现 】
Seaborn同Matplotlib一样,也是Python进行数据可视化分析的重要第三方包。但Seaborn在Matplotlib的基础上进行了更高级的API封装,使得作图更加容易,图形更加漂亮。Seaborn是基于Matplotlib产生的一个模块,专攻统计可视化,可以和Pandas进行无缝链接,使初学者更容易上手。相对于Matplotlib,Seaborn语法更简洁,两者的关系类似于NumPy和Pandas之间的关系。但是应该强调的是,应该把Seaborn视为Matplotlib的补充,而不是替代物。原创 2024-03-15 10:30:35 · 950 阅读 · 1 评论 -
【四 (2)数据可视化之 Matplotlib 常用图表及代码实现 】
Matplotlib是一个Python的2D绘图库,它可以在各种硬拷贝格式和跨平台的交互式环境中生成出版质量级别的图形。它是Python中最常用的可视化工具之一,功能非常强大,可以调用函数轻松地绘制出数据分析中的各种图形,如折线图、条形图、柱状图、散点图、饼图等。原创 2024-03-11 15:34:38 · 770 阅读 · 1 评论 -
【四 (1)数据可视化之如何选用正确的图表】
同时,它也可以帮助人们更好地表达和分享数据,促进沟通和理解,避免信息的误解和歧义。这有助于人们聚焦在数据中最重要的部分,减少冗余信息,提高数据理解的效率。在可视化分析中,数据可以进行分类、排序、组合并显示每个维度的值,以便可以看到表示对象或事件数据的多个属性或变量。通过可视化工具,用户可以更好地理解和分析数据,发现其中的模式和趋势,从而做出更准确、有依据的决策。可视化鼓励用户探索和操控数据,从而发现其中的奥秘。可视化可以直观地展示数据之间的关联和模式,帮助人们发现隐藏在数据背后的故事和趋势。原创 2024-03-11 14:58:04 · 746 阅读 · 0 评论 -
【三 (5)数据处理工具之 pandas用法大全】
pandas使用手册原创 2024-03-06 06:51:20 · 708 阅读 · 0 评论 -
【三 (4)数据处理工具之 SQL (根据执行计划进行SQL调优实践)】
Oracle执行计划是Oracle数据库为了执行某些SQL语句而生成的一系列具体的执行步骤。这些步骤是由Oracle优化器通过考虑具体参数和被访问对象的统计信息等内容来生成的。优化器会从中选择一个最优的执行步骤作为该SQL语句的执行计划。当Oracle执行SQL语句时,它会直接查找相应的执行计划,然后按照该计划读取相关的数据块到缓存中。原创 2024-03-06 06:47:44 · 681 阅读 · 1 评论 -
【三 (3)数据处理工具之 SQL (子查询、常用窗口函数)】
(1)子查询(Subquery)是数据库查询语言(如SQL)中的一个重要概念,它指的是在一个查询语句内部嵌套另一个或多个查询语句。子查询可以出现在SELECT、INSERT、UPDATE或DELETE语句中,用于从数据库表中检索数据,或者基于子查询的结果执行相应的操作。(2)子查询可以返回一个值、一行、一列或多行多列的结果。当子查询返回单个值时,它通常用于比较操作(如等于、大于、小于等)。当子查询返回多行多列的结果时,它通常用于IN、EXISTS等操作符。(3)原创 2024-03-02 11:40:55 · 1101 阅读 · 0 评论 -
【三 (2)数据处理工具之 SQL (表连接)】
在关系型数据库中,数据存放在不同的表中,若需要同时使用多张表的数据,就需要用到表连接。表连接(JOIN)是在多个表中间通过一定的连接条件,使表之间发生关联进而能从多个表之间获取数据。这种操作通常用于从多个相关表中获取并组合数据。实际使用中最常用的是左连接(left join)。连接方式定义图示内连接内连接返回两个表中连接字段相等的行。如果一行在其中一个表中没有匹配,那么该行就不会出现在结果集中左连接左连接返回左表中的所有行,以及右表中连接字段相等的行。原创 2024-03-02 10:42:58 · 758 阅读 · 0 评论 -
【三 (1)数据处理工具之 SQL (定义、分类、执行顺序等)】
SQL(Structured Query Language)是结构化查询语言的缩写,它是一种用于管理关系数据库系统(RDBMS)的编程语言。SQL 语言用于执行各种数据库操作,如查询、插入、更新和删除数据,以及创建和管理数据库对象,如表、索引、视图、存储过程和触发器等。DDL用于定义或修改数据库结构。它涉及创建(CREATE)、修改(ALTER)和删除(DROP)数据库对象,如表、视图、索引等。DDL操作通常是隐性提交的,并且不能回滚。原创 2024-02-26 18:36:01 · 1108 阅读 · 1 评论 -
【二 如何培养业务理解能力】
切入,一步步指导如何在一个陌生领域从零开始进行数据分析,并达到一个入门水平。以上行业已经具有比较成熟的数据分析资产,本专题从一个冷门领域(原创 2024-02-22 14:45:50 · 396 阅读 · 1 评论 -
【一 简明数据分析进阶路径介绍(文章导航)】
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解和消化,以最大化地开发数据的功能,从而发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。原创 2024-02-22 10:32:08 · 591 阅读 · 1 评论