![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理基础
SQL、Excel、SAS、Python等工具都是可以提升数据处理效率的
ArnoChanszu
Keep it real,Keep it possible
展开
-
HQL数据倾斜解决方法总结
近来,求职数据分析师常被问到:数据倾斜如何调优?对于经常使用HQL处理大数据的同学,这个问题并不陌生:任务进度长时间维持在99%,而查看监控页面,会发现只有某几个reduce子任务尚未完成,十分诡异。 要解决数据倾斜这个问题,我们需要先了解下数据倾斜产生的原因是什么?一般由于以下三个操作:count(distinct *), group by , join引起的,导致某个reducer处理的数据过多引起处理时间非常耗时。 因此解决调优的方式可以从3方面入手尝试:...原创 2020-08-20 17:10:03 · 503 阅读 · 0 评论 -
数据分析师必备技能之SQL(6) -- 字符串函数
文本也是数据处理中常见的类型之一,相比于相对成熟的数学函数而言,字符串的处理场景更复杂多变,熟练掌握常见的字符串函数则事半功倍。基础字符串处理函数length(string A):返回字符串A的长度 eg:select length('abced') 得到 5trim(string A) :去除字符串两边的空格 eg:select trim(' abc ') 得到 'abc'lower(string A)/ lcase(string A):返回字符串的小写形式,常用...原创 2020-08-20 15:18:37 · 222 阅读 · 0 评论 -
数据分析师必备技能之SQL(5) -- 数学函数
实战中有一半以上处理的数据类型就是数值型数据,当遇到棘手问题时,多查阅一下SQL函数,是可以高效提升数据处理的效率,本小结将重点介绍几个常用的数学函数及应用。随机抽样rand():从数据中随机抽取一些样本,会返回一个0到1范围内的随机数 rand(int seed):如果指定种子seed,则会等到一个稳定的随机数序列 示例:从数据表中随机取两条数据,设定了rand(100)之后,每次跑出来的都是一样的两条数据;如果rand(),不指定种子seed,每次跑出来的数据都不一样...原创 2020-08-14 10:58:24 · 117 阅读 · 0 评论 -
数据分析师必备技能之SQL(3) -- 连接
实际工作中,我们会依据不同的业务建立对应的事实表及维度表,不太可能只有一两张宽表,可以涵盖所有需要的字段,这样对于存储空间是一种压力。因此,我们常常需要用到多表连接去查询需要分析的数据。连接主要包括3大类:横向连接:即拼接两个及以上单表的列数据,常用的有inner join、left join、right join 纵向连接:即拼接两个及以上单表的行数据,常用的有union ,但这种方式要求连接表的字段名称、类型需要一致 全连接:即拼接两个及以上单表的行、列数据,常用的有full outer j原创 2020-08-12 10:16:45 · 173 阅读 · 0 评论 -
数据分析师必备技能之SQL(4) -- 统计聚合函数
作为数据分析的第一步,我们常常需要表述一组数据特征,例如个数、平均值、最大值、最小值等。在SQL中,我们使用聚合函数对一组数值计算返回一个汇总值,也可以配合使用group by对数据进行分组,再聚合求汇总值。常见的聚合函数:COUNT()——返回行数 SUM()——返回总和 MAX()——返回最大值 MIN()——返回最小值 AVG()——返回平均值 STDEV() ——返回标准差1、求个数/行数等:count()例如: 统计个数select count(字段) as .原创 2020-08-13 09:27:45 · 723 阅读 · 0 评论 -
数据分析师必备技能之SQL(2) -- 过滤
这里的“过滤”包含两部分内容:列的过滤:即选择哪些字段 行的过滤:即选择哪些符合条件的样本数据列的过滤 在实际分析数据时,我们不太可能需要所有的字段参与分析,因此实战中常常使用select选择需要参与分析的字段即可,而不是用select *把所有字段都参与进来。这在数据量大的情况下,效率差别明显。 2. 行的过滤 行的过滤方式有2种,分别是通过where和having来实现的。where是在加载表数据(from)后执行,可以通过一定的...原创 2020-08-10 22:21:39 · 218 阅读 · 0 评论 -
数据分析师必备技能之SQL(1) -- 逻辑顺序和执行顺序
数据分析师必备技能之SQL(1) – 逻辑顺序和执行顺序**写在前面的话:**SQL是数据分析师必备的数据处理、分析工具,本系列会分享一些自己的实战经验,致力于为各位同行者提供建议,避免踩坑!第一部分,先来讨论一个很容易被忽略,也很重要的问题:SQL的书写顺序和执行顺序。以下是常见的SQL语句的查询书写顺序:// SQL查询书写顺序select <select_list>from <table_name><join_type> join <joi原创 2020-08-10 17:12:28 · 294 阅读 · 0 评论 -
对数据敏感度的理解
谈谈自己对于数据敏感度的理解数据量级:对常见数据量级的把握,包括公司内的、还有生活中的,例如我国网民规模8.54亿数据标准:不仅要有数量级的概念,还要有一个数据标准,让这个数据更加立体数据口径:网民规模8.54亿,微信10亿有矛盾?前者以实体去重计算,后者以移动设备计算数据时间和数据来源:统计的时间和数据来源也容易造成误解,例如互联网人口规模8.54亿来源于CNNIC平台,截至2019年6月的数据...原创 2020-08-09 07:43:22 · 682 阅读 · 0 评论