![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
大数据技术汇总hive flink kafka等
dataastron
工程师
展开
-
转载Hive常用参数调优
https://www.cnblogs.com/ITtangtang/p/7683028.html1、limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。有一个配置属性可以开启,避免这种情况—对数据源进行抽样hive.limit.optimize.enable=true — 开启对数据源进行采样的功能hive.limit.row.max.size —...转载 2019-05-21 14:25:24 · 208 阅读 · 0 评论 -
hive -S -e
hive -S -e “show partitions app.app_dm_da”|sort|tail -1|sed ‘s/dt=//g’原创 2019-01-22 15:21:12 · 4610 阅读 · 0 评论 -
下载方法
!wget -U ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36’ ‘xx’https://pan.baiduwp.com/ get原创 2019-09-17 22:53:27 · 177 阅读 · 0 评论 -
hive list乱码
做ocr识别结果是很多文字序列,存在list中1、因为ocr识别结果有/n,换行符。所以导致各种出错解决方法1create table testtable stored as orc as解决方法2,替换成字符串,去掉分隔符再保存。pshive表默认的换行符是/n...原创 2019-05-29 19:54:50 · 274 阅读 · 0 评论 -
hive笛卡尔积
方法1 full outer joina full outer join b方法2 joina join b on 1=1方法3 ,select a.,b. from a,b原创 2019-05-29 19:52:20 · 1293 阅读 · 0 评论 -
hive 列排除
这是HIVE中查询语句的一个小技巧,一个表有很多字段,我们想要除个别字段外的剩余所有字段,全部列出来不方便且不美观,实际上hive语句可以解决这个问题。选择tableName表中除了name、id、pwd之外的所有字段:set hive.support.quoted.identifiers=None;作者:phase11来源:CSDN原文:https://blog.csdn.net/u...转载 2019-05-21 22:35:13 · 799 阅读 · 0 评论 -
Hive性能优化2
Hive性能优化1.概述继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?•数据量大不是问题,数据倾斜是个问题。•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总...转载 2019-05-21 14:26:54 · 115 阅读 · 0 评论 -
hive 两张表全量数据对比
hive 两张表全量数据对比select * from ( select max(source) source,c1,c2 ,c3,count(*) from ( select 1 source, a.* from dev.astron_wangluochayi_1 a union all原创 2018-05-09 11:03:45 · 16817 阅读 · 0 评论 -
(odps)maxcompute 日志操作学习
LogviewLogview是MaxCompute Job提交后查看和Debug任务的工具。通过Logview可看到一个job的内容有:任务的运行状态任务的运行结果任务的细节和每个步骤的进度Job提交到MaxCompute后,会生成Logview的链接,用户可以直接在浏览器上打开Logview链接进入查看job信息,每个job的Logview页面转载 2017-09-10 12:50:16 · 3405 阅读 · 0 评论 -
flink入门教程要点笔记(netcat版本)
今天刚开始搭建flink的环境。暂时没有装hadoop,直接运行demo。学习文档:http://ifeve.com/flink-quick-start/要点(1)启动一个本地的Flink集群,启动后是一个守护进程root 3595 1.6 1.3 7251472 203772 pts/18 Sl+ 01:49 0:10 /usr/local/java/jd原创 2017-04-13 01:57:43 · 2096 阅读 · 0 评论 -
flink入门教程
《Flink官方文档》Quick Start原文链接 译者:清英安装: 下载并开始使用FlinkFlink 可以运行在 Linux, Mac OS X和Windows上。为了运行Flink, 唯一的要求是必须在Java 7.x (或者更高版本)上安装。Windows 用户, 请查看 Flink在Windows上的安装指南。你可以使用以下命令检查Java当前转载 2017-04-13 01:56:11 · 13591 阅读 · 4 评论 -
Apache Kafka基准测试:每秒写入2百万(在三台廉价机器上)
Apache Kafka基准测试:每秒写入2百万(在三台廉价机器上)原文链接 译者:astron 原文作者: Jay Kreps 2014年4月27日我写过一篇LinkedIn如何使用Apache Kafka作为集中发布订阅日志,以便在应用程序,流处理和Hadoop之间集成数据的博客文章。为了达到这样的目的,这个“通用日志”必须是一个简单的抽象。如果原创 2017-08-28 10:38:38 · 304 阅读 · 0 评论 -
【astron转载】一张图看懂Hive
顺便转载个hive。讲得比较简单。看看就行,不太推荐。转载 2017-08-28 03:08:40 · 285 阅读 · 0 评论 -
【astron转载】一张图看懂HBase
华为总结的HBase确实很经典。今天看了HBase权威指南中的架构章节。虽然没看完,但是看了这个图后,有种醍醐灌顶的感觉。后面继续看权威指南。有没有像一张图看懂XX财报的感觉。京东和阿里的同学应该经常看。转载 2017-08-28 02:28:14 · 1006 阅读 · 0 评论 -
astron HBase100问
1、HBase是否支持事务,支持到什么程度。2、列族的数目跟性能的关系,越大越好?3、为什么要设计列族?4、同一个列能放在不同的列族吗?5、原创 2017-08-27 21:47:17 · 209 阅读 · 0 评论 -
astron设计模式学习手记之门面模式
门面模式图解设计模式第15章facade建筑物的正面 别名:外观模式如下图,像在线客服对用户而言就是一个门面。它封装了很多业务逻辑。比如客户咨询商品价格问题,客服需要咨询的是销售人员。客户反馈没有收到商品,客服需要联系配送。客服反映商品没开发票,客服需要联系仓储开票人员。遇到领券失败需要咨询市场部,遇到返修退换货需要联系售后部门甚至厂家。有了这个门面,客户不需要直接与内部系统打交道,直接联系客服就原创 2017-05-30 20:35:58 · 304 阅读 · 0 评论 -
zookeeper快速入门
今天在阿里云的主机第一次启用,还是遇到了小麻烦。没装java。所以直接wget zookeeper的安装源码后,zookeeper单机模式启动了,实际上在日志文件报错了,没注意。好在很快查到了问题。安装了jdk8在主机上。jps用不了,用jps命令没看到QuorumPeerMain。 2017-09-17 21:56:32,909 [myid:] - INFO [main:QuorumPeerC原创 2017-09-17 22:31:19 · 2648 阅读 · 0 评论 -
ZAB的架构 - ZooKeeper原子广播协议
ZAB的架构 - ZooKeeper原子广播协议 2015年6月20日GUY MOSHKOWICH6评论 背景ZooKeeper支持客户端读取和更新具有高可用性的键值对。通过将数据复制到多个节点并让客户端从任何节点读取来实现高可用性。对Zookeeper的设计至关重要的是每个状态变化相对于以前的状态是增量的观察,所以对状态变化的顺序有隐含的依赖性。 Zookeeper Atomic Broadc原创 2017-09-16 04:27:56 · 542 阅读 · 0 评论 -
flink系列5 最简单的hello world
最简单的hello world //0.引入必要的程序元素import org.apache.flink.api.scala._object HelloFlink { def main(args: Array[String]): Unit = { // 1.设置运行环境 val env = ExecutionEnvironment.getExecutionEnviro原创 2018-01-15 11:19:38 · 2868 阅读 · 0 评论 -
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala._ 不引入这句话要报错?原创 2018-01-11 17:41:50 · 2116 阅读 · 0 评论 -
flink系列2 wordcount测试(windows)
参考文档 https://ci.apache.org/projects/flink/flink-docs-master/quickstart/setup_quickstart.htmlwindows上测试,linux上2017年4月的存档中有 1、准备工具。在百度或者google上搜索netcat-win32-1.11.zip。 运行nc64 -l -p 9099。启动监听程序2、安原创 2018-01-11 16:10:22 · 2193 阅读 · 0 评论 -
flink系列1 程序win上启动
2018-01-11 14:30:24,595 INFO org.apache.flink.runtime.jobmanager.JobManager - --------------------------------------------------------------------------------2018-01-11 14:30:24,596 I原创 2018-01-11 15:50:04 · 1027 阅读 · 1 评论