关闭
当前搜索:

Presto ETL SQL 执行框架

简介: 仅适用于 presto 之前模仿 sqoop 的功能,写了一版 presto-extract,但发现并不好用,于是跳出 sqoop 的思维,重新写了一版 该版本的职责: 负责顺序调用 sql 一个负责提供占位参数的 placeholders.sql 从 placeholders.sql 获取参数,并填充到顺序调用的 sql 中 提供循环 sql 调用 根据脚本入参,可保存需要保存的 pla...
阅读(91) 评论(0)

OrientDB 踩坑记录

子查询得到的结果默认是 Collection, 判断相等的时候需要先调用 FIRST(subQuery) 方法(或其它方法),否则会出现等式判断错误. 正确: SELECT FROM Person WHERE name = FIRST((SELECT name FROM Person)) 错误: SELECT FROM Person WHERE name = (SELECT name FROM P...
阅读(59) 评论(0)

给Linux系统新增加一块硬盘

今天公司测试Linux服务器硬盘不够用了,主要是mysql数据文件太大了,买了个500G的硬盘回来,这里记录下新加硬盘的方法 PS 测试服务器的主板太差劲了,没有多余的电源接口,只能把光驱的电源拿出来,才能让硬盘使用。 把硬盘装好后,我们用 fdisk -l 查看下: 图中可以看出 /dev/sdb 是500G,新加的硬盘。 接下来我用命令 fdisk sdb 进行分区,输入 p ...
阅读(173) 评论(0)

Spark技术在京东智能供应链预测的应用

大家晚上好,做一个简单的介绍:我叫郭景瞻,来自京东,著有《图解Spark:核心技术与案例实战》一书,还有我的同事杨冬越,他在京东Y事业部,主要从事供应链销量预测、单量预测等系统的设计与实现工作。 今天非常感谢InfoQ提供这样的机会给大家做一次分享,我们分享的主题是《Spark技术在智能供应链的应用》。在该分享中,首先介绍京东智能供应链并介绍预测在供应链中的作用,接着介绍预测系统的业务和技术...
阅读(107) 评论(0)

Presto 集群管理工具

presto 官方提供了集群管理工具,但只支持 RedHat Linux version 6.x * CentOS, ubuntu下,不能正常使用,于是自己撸了一个presto集群管理工具:github链接 https://github.com/leoChaoGlut/presto-manager...
阅读(123) 评论(0)

数据库事务的四大特性以及事务的隔离级别

本篇讲诉数据库中事务的四大特性(ACID),并且将会详细地说明事务的隔离级别。   如果一个数据库声称支持事务的操作,那么该数据库必须要具备以下四个特性: ⑴ 原子性(Atomicity)   原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,这和前面两篇博客介绍事务的功能是一样的概念,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响...
阅读(264) 评论(0)

HDFS的运行原理

简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点:     ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。     ② 运行在廉价的机器上。 ...
阅读(148) 评论(0)

【案例分享】唯品会海量实时OLAP分析技术升级之路

【文章来源:DBAplus社群。本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成】 讲师介绍 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 分享大纲: 海量数据...
阅读(205) 评论(2)

Spark 增量操作 insertInto() 与 mode(SaveMode.Append).saveAsTable() 的区别

前言 使用spark做增量操作的时候,会看到有2个方法都可以做: insertInto 和 mode(SaveMode.Append).saveAsTable() 区别: insertInto() 无关schema,只按数据的顺序插入,类似hive导入csv. mode(SaveMode.Append).saveAsTable() 如果表已存在,会使用已存在的表的format和option来执...
阅读(330) 评论(0)

ROLAP、MOLAP和HOLAP联机分析处理区别

第一篇:      OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。    “维”(dimension)是人们观察客观世界的角度,是一种高层次的...
阅读(253) 评论(0)

Kylo 0.8.3 安装

前置条件- kylo-0.8.3.deb(待安装) - ubuntu 14.04(已安装) - jdk 8(已安装) - mysql 5.6(已安装) - HDP 2.6(已安装) - HDF 3.0.1.0(包含nifi1.2)(已安装)- cd /opt/kylo/setup - 只安装activemq和elasticsearch,不安装nifi,使用HDF里的nifi 安装脚本修改说明: 如...
阅读(277) 评论(0)

归纳决策树ID3(Java实现)

先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。 table 1 outlook temperature humidity windy play ...
阅读(144) 评论(0)

Parquet与ORC性能测试报告

一、环境说明 Hadoop集群:使用测试hadoop集群,节点: hadoop230 hadoop231 hadoop232 hadoop233 这几台机器配置一样,具体参数可参考如下:  CPU数量:2个  CPU线程数:32个  内存:128GB  磁盘:48TB 使用测试机群上的同一个队列,使用整个集群的资源,所有的查询都是无并发的。 Hive使用官方的h...
阅读(194) 评论(0)

从贝叶斯定理说开去

从贝叶斯定理说开去 罗朝辉 (http://kesalin.github.io/) CC 许可,转载请署名并保留出处 简介 贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死...
阅读(143) 评论(0)

Sqoop 1.4.6 踩坑记录

精度丢失问题 异常信息WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive 描述:使用Sqoop,从MySQL往Hive中import数据的时候出现该异常。MySQL表中,对应的列的类型为decimal(10,2)。Sqoop会把它转为Hive的double类型,导致精度丢...
阅读(261) 评论(0)
341条 共23页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:543092次
    • 积分:7093
    • 等级:
    • 排名:第3631名
    • 原创:168篇
    • 转载:172篇
    • 译文:1篇
    • 评论:91条
    最新评论