数据处理与分析
文章平均质量分 51
神芷迦蓝寺
神芷迦蓝寺,江楼月美人
展开
-
基于多库通用SQL代码转换的新系统MSE介绍
MSE是一种多库并用的代码在线转换系统工具。摒弃一库一写,本地函数等复杂多变的应对方式,采取字符转换高效简洁地实现数据分析常用的DDL和DML语句实时转换,一套代码,多库通用原创 2022-10-24 14:13:51 · 1082 阅读 · 0 评论 -
hivesql实现多行转一行中的collect_list与collect_set的区别
行转列是sql中常用语法,通常最普遍的做法是使用max,sum再配合case when 来做到,见之前一个blog:是的我又来推销我的blog哈哈哈哈哈嗝儿~而对于多行转一行的可以使用函数来实现,由于现在hive,spark 使用较为普遍,这里我们拿里面的两个函数collect_list和collect_set来举例说明,MySQL里也有对应的多行转一行——group_concatcollect_list和collect_set都是用来做多行结果转到一行的,他们的区别是前者不去重,后者去重,(不难理原创 2020-05-13 16:00:11 · 6250 阅读 · 0 评论 -
提高SQL查询效率的30种方法
本文转载微笑点燃希望的文章,原文链接1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有nul...转载 2019-06-17 15:42:37 · 596 阅读 · 0 评论 -
JSON基础介绍与PostgreSQL读取JSON字符串的详细流程
PostgreSQL对json的支持已经达到很完善的地步了,这里我是基于阿里云的产品HybirdDB for PostgreSQL来做PostgreSQL的json读取流程(json常识摘自阿里云)检查现有版本是否支持JSON:SELECT '""'::json;-- 若系统出现如下信息,则说明已经支持 JSON 类型,可以使用实例了。若执行不成功,请重新启动实例json -----...原创 2019-01-19 11:11:29 · 4942 阅读 · 0 评论 -
星型模型与雪花模型的比较
当今数据仓库建模主要分为两类:范式建模和维度建模范式建模是基于三范式标准进行建模,好处是高度集成,易于管理和维护,但坏处是结构死板,周期过长维度建模是依据事实表和维度表结合应用所产生的一种模型结构,好处是构建迅速,最快看到回报,坏处是不好维护,结构复杂实际应用中一般是范式建模和维度建模相结合,这里讲下维度模型下的两个主要分类:雪花模型和星型模型星型模型:由一个事实表和一组维表直接组...原创 2019-04-04 17:34:52 · 1369 阅读 · 0 评论 -
如何快速提取图片上的文字
日常生活和工作中经常会需要提取图片上的文字,比如pdf,截图等图片上面的文字如果可以一键快速提取,那么效率将光速提升,而不需要一个个的手敲,降低工作量和工作成本市面上提取文字的工具还是比较多的,比如金山软件,小米扫一扫识字等等,这里我们着重介绍下使用Microsoft Office组件之一:OneNote打开OneNoteOneNote一般下载的有Office(非常实用的微软软件合集),...原创 2019-04-04 14:41:29 · 2420 阅读 · 0 评论 -
Excel2016如何固定表头,如何使前两行保持在最前端
excel固定表头很简单,只需要视图-冻结窗格-冻结首行,冻结首列与之类似那么如何使前两行保持在最前端,也就是冻结前两行,如果按照步骤选中前两行,点击冻结窗格,会自动冻结+1行,也就是第三行,这种情况无法满足我们的需求由此,这个时候我们可以选中第三行,选择冻结窗格,那么前两行就被冻结了,始终保持在最前端想让前n行保持在最前端,就选中第n+1行,选择冻结窗格,对于列操作与此一样...原创 2019-03-30 16:50:25 · 10007 阅读 · 0 评论 -
通过数据字典excel文件在oracle等数据库中生成Hive建表脚本
业务场景:从一个系统库里查询得到数据表的数据字典,该数据字典包含表名,表中文名,列名,列中文名,列数据类型,映射情况等字段,那么如何通过该数据字典excle(其他类文件如csv等也可以)文件生成建表脚本呢?一、把excel文件数据传输到ORACLE数据库在ORACLE库需要建两张主从表,一张主表包含三个必需字段:TABLE_NAME,TABLE_COMMENT,XH(序号),另一张从表包含...原创 2018-12-17 14:59:09 · 757 阅读 · 0 评论 -
大数据平台SQL编码开发规范--转自阿里云DataWorks
本文向您介绍SQL编码的基本原则和详细的编码规范。编码原则SQL代码的编码原则如下:代码功能完善,健壮。 代码行清晰、整齐,具有一定的可观赏性。 代码编写要充分考虑执行速度最优的原则。 代码行整体层次分明、结构化强。 代码中应有必要的注释以增强代码的可读性。 规范要求非强制性约束代码开发人员的代码编写行为,在实际应用中在不违反常规要求的前提下允许存在可理解的偏差本规范在对日常...转载 2018-11-23 16:38:57 · 1433 阅读 · 0 评论 -
大数据算法模型中的数据清洗
大数据的背景下,数据处理占了极大的份额,就像一个西红柿做成西红柿炒鸡蛋,需要经过调料整合,菜料清洗,饭菜加工等等才能发布到生产,不,发送到餐桌,毕竟直接干吃西红柿会脏乱有毒,口味不佳,顾客会认为贵餐厅很low这里简单分享一下我对数据清洗的理解,数据清洗占了很重要的地位,不然面对着脏乱差的西红柿炒鸡蛋,没人愿意下口。一份未经清洗过的数据一般会存在这些不符合分析要求的问题:重复,错误,空值,异...原创 2018-08-16 19:25:36 · 11308 阅读 · 2 评论 -
浅谈增量数据的四种抽取模式
大数据云时代,数据上云ETL已成了最基础,最根本,最必须的一个步骤。目前数据传输迁移的工具非常多,比如DataX,DTS,Kettle等等。为了保证云上存储空间的有效利用和数据的整体唯一性,就没必要每天都上一份全量,故几乎所有数据上云的策略都是全量加增量的模式:即第一次上一份全量,后续每天只上增量,这样前一天的全量加上今天的增量就是今天的全量。既然是要每天上增量,那么如何获取增量数据便成了一个...原创 2018-07-11 11:33:30 · 20963 阅读 · 0 评论 -
数据结构专业术语和概念解释
大数据时代,数据开发和数据运维显得愈来愈重要,我们需要区分一下这几个专业术语的概念 概念术语 描述 数据 是对客观事物的符号描述,在计算机中指所有能被计算机识别并且能够处理的符号总称 数据源 代指源端数据,是数据未经处理未经加工过的最初始的原始数据,比如五个班级学生的体检报表...原创 2018-04-16 16:22:41 · 503 阅读 · 0 评论