数据分析
文章平均质量分 61
Sun_Weiss
这个作者很懒,什么都没留下…
展开
-
Power BI 连接数据源/获取数据(Excel表、文件夹、数据库、网页等)
一、Power BI 支持的数据源类型Power BI支持广泛的数据源类型,包括文件、数据库、云服务和其他来源。文件:Excel、文本/CSV、XML、JSON、文件夹、PDF等。数据库:SQL Server, Oracle, IBM DB2, MySQL, PostgreSQL等。云服务:Azure SQL Database, Azure Blob Storage, Salesforce, Google Analytics等。其他来源:Web页面数据,R脚本和Python脚本输出等。原创 2024-06-21 11:01:07 · 1176 阅读 · 0 评论 -
Power BI 数据模型——创建表间关系
(但这种关系创建往往是直接在不同表的同名字段间创建关系,不一定是我们想要的关系,还可能会导致后续数据分析的错误。表之间可以存在多个关系,但同时只能有一个关系处于活动状态(在模型关系图中用实线表示),其他的关系则处于非活动状态(用虚线表示)。不建议使用,因为如果两个表之间是一对一的关系,那更好的方法是把这两个表合并成一个。两个表的对应关系,关系是有次序的,分为左表和右表,两个表之间有多对一、一对一、一对多和多对多四种关系,具体说明如下。,即用一端的表(通常是维度表)去筛选多端的表(通常是事实表)。原创 2024-01-17 15:00:00 · 2239 阅读 · 2 评论 -
Power Query 中常用的数据清洗、转换操作
天(从日期中提取出天)、每周的某一日(提取出日期是这一周的第几天)、一年的某一日(提取出日期是这一年的第几天)、一天开始值(提取出这一天开始的日期时间)、一天结束值(提取出这一天结束的日期时间)、星期几(提取出这一天对应的星期的中文名):一年的某一周(提取出日期是这一年的第几周)、一个月的某一周(提取出日期是这一月的第几周)、星期开始值(提取出这一周的第一天)、星期结束值(提取出这一周的最后一天):年(从日期中提取出年)、年份开始值(提取出这一年的第一天)、年份结束值(提取出这一年的最后一天)原创 2024-01-16 19:48:52 · 1849 阅读 · 0 评论 -
Power BI DAX 基本语法
(2)等号前面是表达式名称,如果DAX建立的是度量值,它就是度量值名称;(表名的单引号,列字段前的表名可以省略,但不建议这么做。(当变量被多次引用时,只会计算一次,可以提高性能。度量值用中括号[ ]包裹,如DIVIDE([本年累计销售额],[上年累计销售额])。函数名不区分大小写,函数后必须有双括号,参数之间用逗号分隔,函数可以多层嵌套。回车符,本身无意义,主要用于设置 DAX 公式的格式,换行、缩进等。列字段用中括号[ ]包裹,并带上表名,如'订单表'[销售额]。表名用单引号' '包裹,如'订单表'。原创 2024-01-11 18:53:27 · 654 阅读 · 0 评论 -
Python实现控制变量匹配抽样(对照匹配 case-control matching)
在保证对照组和实验组,在控制变量上属性相同的基础上,进行随机抽样。原创 2023-12-19 19:34:59 · 1028 阅读 · 0 评论 -
99% 用户都不知道的 Power BI / Power Query 隐藏功能
Power Query 的列分布、列质量、列概要功能,可以在没有进入分析之前,就粗略查看这列数据的分布和统计信息,方便数据的整理和清洗。原创 2023-11-09 16:50:00 · 470 阅读 · 0 评论 -
Power BI 实现日历图,在一张图中展示天、周、月数据变化规律
2、视觉对象格式tab,(1)选择一周从哪一天开始(我们一般从周一开始);(2)选择一行显示几个月的日历(我选择了6个,一年分两行展示);(3)选择数据最大值的颜色(最小值为白色,中间颜色渐变)1、视觉对象tab,将日期拖入Date栏,将数据指标拖入Values栏。原图是用 d3 做的,我想用 Power BI 实现同样的展示效果。《数据可视化》这本书里介绍了一个时间可视化的案例(如下图所示),这样的展示形式对于所有随日期变化的数据都有参考价值。以日历图的形式展示数据的变化。原创 2023-10-26 14:07:40 · 2081 阅读 · 0 评论 -
Pandas pivot 数据透视之后,去除多余列索引,转换行索引
去除、转换Pandas数据透视后的行、列索引原创 2023-05-05 23:12:43 · 1985 阅读 · 1 评论 -
python和pandas,求每一行最大的5个值,输出对应的列名和值
多个分类的比例或数值,需要找到每一行最大的5个(或者n个)比例或数值,以及它们对应的类别,并输出原创 2022-05-19 15:17:47 · 2550 阅读 · 0 评论 -
走出数据泥沼:数据清理第1步——来个简单粗暴的描述性统计吧
如果你完成了数据的审查,确认了第0步中每个问题的答案,这份数据的确符合你的需求。接下来就要审核一下数据中存在的问题了。一份原始的脏数据可能存在多少种问题?那恐怕是数也数不清的,常见的大概有:空白值与缺失值——数据空白——程序是区分不出空白值和缺失值的,只能由你区分错误值与极端值——错误或超出合理范围的取值——什么叫“合理”也是你来定义的重复值——重复变量和重复个案多值——某个变量在某个个案上有多个值——这是没法进入数据分析的,多半会被程序识别成字符串数据类型、格式错误这些问题,如果样本量原创 2020-12-20 22:22:20 · 494 阅读 · 0 评论 -
走出数据泥沼:数据清理第0步
走出数据泥沼作为一个数据分析工作者,你在各种教科书和各种教程中,学会了各种各样的统计分析方法:从最一般的描述性统计,到差异检验、参数估计、相关回归,再到看起来很酷炫的各种建模方法、机器学习算法。这些是很有用没错。但是他们常常忘记了告诉你,所有这一切分析和有意义的结论,都是基于干净的、完整的、每个变量和个案都清清楚楚的数据实现的。而你在实践中几乎不可能拿到这样的数据,你实际面对的数据多半充满了缺失值、错误值、重复值、乱七八糟的字符串、糟糕的格式……投入数据分析软件或程序中之后,只会收获各种报错,分析结原创 2020-12-20 21:41:28 · 155 阅读 · 0 评论