hadoop hive hdfs
hadoop hive hdfs
阿拉斯加大闸蟹
JDcloud;ByteDance;XueQiu;YiChe;CATARC
展开
-
hive sql分组后取每组前100
最近在进行风控系统-反黑策略的时候遇见个有趣的SQLselect * from ( select *,RANK() OVER (PARTITION BY strategy_id ORDER BY result_id DESC ) as sort_id from distinct_uid_strategy_result ) twhere t.sort_id<=100解释一下,我的这个是想要获取每个策略的前100名strategy_id:就是策略的id(当然.原创 2020-05-12 18:51:18 · 6531 阅读 · 0 评论 -
TSDB数据库
目录为什么需要时序数据库:时间序列数据库的特点:常见的时间序列数据库:时间序列数据库存储:时间序列数据库问题:参考资料:内容是在我球的docs上直接复制过来的,懒得写两份,资源缺少的留言,我发你RDD官网简介:RRDtool refers toRound Robin Database tool.Round robin is a technique that...原创 2019-05-16 10:25:01 · 2836 阅读 · 0 评论 -
sqlserver数据实时同步至kafka
在处理实时数据时,需要即时地获得 数据库 表中数据的变化,然后将数据变化发送到Kafka中。这篇文章将介绍如何使用Kafka Connector完成这一工作。当获取实时数据时,数据源需要支持对数据变化进行反馈。不同的数据源采用了不同的技术和方法实现该功能,因为我们的业务数据库是MS SQL Server,因此这篇文章采用MSQL作为数据源。调研ETL之增量抽取方式:https://ww...原创 2019-01-09 17:35:36 · 14003 阅读 · 9 评论 -
canal实现mysql实时数据binlog同步
原理相对比较简单:canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议 mysql master收到dump请求,开始推送binary log给slave(也就是canal) canal解析binary log对象(原始为byte流)基本说明canal 1.1.1版本之后, 默认支持将canal serve...原创 2019-01-09 17:50:11 · 22556 阅读 · 7 评论 -
flume实现kafka的实时消息入hdfs
1、这里先启动hdfs,并在hdfs存储路径中新建一个目录(/flume)准备存放flume收集的kafka消息。$ sbin/start-dfs.sh2、然后启动kafka服务,并创建一个topic(flume-data),然后还可以启动一个生产者控制台,准备往flume-data这个topic中生产消息,让flume来消费。start zookeeper(进入kafka安装目录)...原创 2019-01-18 19:27:10 · 815 阅读 · 0 评论 -
hive原理背景介绍
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用传统的数据管理系统,它是难以加工大型数据。因此,Apache软件基金会推出了一款名为Hado...原创 2018-12-03 15:40:55 · 430 阅读 · 0 评论 -
hbase背景原理介绍
自1970年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop使用分布式文件系统,用于存储大数据,并使用MapReduce来处理。Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop的限制Hadoop只能执行批量处理,并且只以顺序方式访问数据。这意...原创 2018-12-03 15:20:25 · 885 阅读 · 0 评论 -
hadoop背景原理介绍
Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以...原创 2018-12-03 15:16:05 · 580 阅读 · 0 评论 -
使用hive来分析nginx的log日志
在hive 的安装目录启动hive后。[root@master hive]# ./bin/hivewhich: no hbase in (/usr/tools/hadoop-2.7.3/bin/:/usr/java/jdk1.7.0_79/bin/:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin)...原创 2018-12-04 21:10:02 · 665 阅读 · 0 评论