![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据总结
文章平均质量分 65
neo .zhou
这个作者很懒,什么都没留下…
展开
-
HiveSQL常用技巧总结
HiveSQL常用技巧一、去重技巧 group by <-- distinct在2019年购买后又退款的用户二、聚合技巧--利用窗口函数grouping sets/cube/rollup1. grouping sets用户性别分布及每个性格的城市分布2. cube性别、城市、等级的各种组合的用户分布3. rollup同时计算出每个月的支付金额,以及每年的支付金额一、去重技巧 group by <-- distinct###取出user_trade表中全部支付用户原来写法:select d原创 2021-05-17 20:50:09 · 370 阅读 · 1 评论 -
flume常用组件解析
flume常用组件解析flume常用组件解析Avro Sourceflume常用组件解析Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具数据流模型1.Event是Flume定义的一个数据流传输的最小单元。2.Agent就是一个Flume的实例,本质是一个JVM进程,该JVM进程控制Event数据流从外部日志生产者那里传输到目的地(或者是下一个Agent)。3. 一个完整的Agent中包含了三个组件Source、Channel原创 2022-01-13 19:14:30 · 650 阅读 · 0 评论 -
kafka常用指令测试总结
1.各个节点启动zookeepermaster和从节点都要启动;[root@slave2 zookeeper-3.4.11]# ./bin/zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /usr/local/src/zookeeper-3.4.11/bin/../conf/zoo.cfgStarting zookeeper ... STARTED[root@slave2 zookeeper-3.4.11]# 2.原创 2021-12-23 22:26:25 · 1269 阅读 · 0 评论 -
Spark UDF实例详解
Spark UDF实例详解需求List:(1) 统计orders中produce的数量统计– 商品被购买的数据量hive : group by countspark:scala> val orders=sql(“select * from badou.orders”)scala> val products=sql(“select * from badou.products”)scala> val priors=sql(“select * from badou.priors”原创 2021-05-27 23:26:40 · 319 阅读 · 0 评论 -
spark知识点总结一
spark知识点总结一数据库加载spark中配置读取hive数据1.每个用户平均购买订单的间隔周期2.每个用户的总订单数量(分组)3.每个用户购买的product商品去重后的集合数据4.每个用户总商品数量以及去重后的商品数量(distinct count)5.每个用户购买的平均每个订单的商品数量数据库加载hive中数据库查看:> show databases;> use zhouwf;> show tables;导入priors表为列:> create table原创 2021-10-27 22:09:49 · 217 阅读 · 0 评论 -
Caused by: ERROR XBM0A: The database directory ‘/root/metastore_db‘ exists.
at org.datanucleus.api.jdo.NucleusJDOHelper.getJDOExceptionForNucleusException(NucleusJDOHelper.java:436) at org.datanucleus.api.jdo.JDOPersistenceManagerFactory.freezeConfiguration(JDOPersistenceManagerFactory.java:788) at org.datanucleus.api.jdo.JDOPe.原创 2021-06-19 17:13:07 · 360 阅读 · 0 评论 -
Scala实现workcount
Spark实现workcount// select split(sentence,' ') re// from tmp1、使用scala实现wordCountscala> import scala.io.Sourcescala> val lines =Source.fromFile("/usr/local/src/badou_code/mr/mr_wc/The_Man_of_Property.txt").getLineslines: Iterator[String] = non-em原创 2021-05-26 19:52:59 · 248 阅读 · 0 评论 -
Scalca知识点总结
Scalca笔记总结1、变量定义:有两种val 和var2.数据类型3. 复合类型:列表List:元组tuple:集合set:映射map:4、scala函数:1、变量定义:有两种val 和varval 类似于Java中的final 变量,初始化之后不能再赋值;var类似java中的变量,可以在生命周期中多次赋值;与Java不同 的时类型声明在变量后面,用:分割,如果没有指定变量类型,编译器将会自动推断。val a:string = 'hello scala'注意:当val被声明为lazy时,原创 2021-05-26 19:22:39 · 260 阅读 · 0 评论 -
Hive常用函数总结二
Hive常用函数总结二一、累计计算串口函数1、sum(...) over(...)2018年每月的支付总额和当年累计支付总额2017-2018年每月的支付总额和当年累计支付总额2、avg(...) over(...)2018年每个月的近三个月移动平均支付金额3、语法总结二、分区排序串口函数row_number() over(...) / rank() over(....)/dense_rank()over(...)一、累计计算串口函数1、sum(…) over(…)计算截止某月、年的累计数值2018原创 2021-05-18 20:55:36 · 442 阅读 · 0 评论 -
hive表连接总结
Hive表连接总结inner join在2019年购买后又退款的用户在2017年和2018年都购买的用户在2017年、2018年和2019年都有交易的用户left join对表一和表二进行左连接:right join在user_list_1表中,但是不在user_list-2中的用户在2019年购买,但是没有退款的用户在2019年购买用户的学历分布在2017年和2018年都购买,但是没有在2019年购买的用户full join对表一和表二进行全连接user_list_1和user_list_2 所有的用户u原创 2021-05-17 19:52:22 · 1112 阅读 · 0 评论 -
Hive常用函数总结一
Hive常用函数总结1)1. select ..A.. from ..B.. where ..c..查看列名字段选出城市在北京,性别为女性的10名用户:查看交易表名desc:2. group bygroup by .. having..3. order by...5. 时间日期转换from_unixtime unix_timestamp把时间戳转换为日期6. data_diff data_add data_sub 计算日期间隔用户首次激活时间,与2019年5月1日的日期间隔7. 条件函数case wh原创 2021-05-15 17:51:57 · 289 阅读 · 0 评论 -
Hive笔记总结
1.新建数据库create database if not exists zwftest;2.创建表create table if not exists user_info (user_id string,user_name string,sex string,age int,city string,firstactivetime string,level int,extra1 string,extra2 map<string,string>)ro原创 2021-03-30 20:18:35 · 70 阅读 · 0 评论 -
安装mysql报错信息mysql-community-common(x86-64))=5.7.9isneededbymysql-community-libs
安装mysql报错信息mysql-community-common(x86-64))=5.7.9isneededbymysql-community-libs解决:清除yum里所有mysql依赖包[root@hadoop mysql-5.7.16]# rpm -qa|grep mysql[root@hadoop mysql-5.7.16]# yum remove mysql-libs原创 2021-03-06 17:36:54 · 6783 阅读 · 1 评论 -
kafka功能演示
1.各个节点启动zookeepermaster和从节点都要启动;[root@slave2 zookeeper-3.4.11]# ./bin/zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /usr/local/src/zookeeper-3.4.11/bin/../conf/zoo.cfgStarting zookeeper ... STARTED[root@slave2 zookeeper-3.4.11]# 2.原创 2021-03-06 11:50:11 · 166 阅读 · 0 评论 -
zookeeper总结
1.内容说明2.创建临时节点:[zk: localhost:2181(CONNECTED) 7] [zk: localhost:2181(CONNECTED) 7] create -e /consumers/test/server001 0000Node already exists: /consumers/test/server001[zk: localhost:2181(CONNECTED) 8] [zk: localhost:2181(CONNECTED) 8] [zk: localh原创 2021-03-06 11:25:54 · 170 阅读 · 0 评论 -
flume常用功能总结
1.通过netcat作为source,sink为logger的方式flume指令:./bin/flume-ng agent --conf conf --conf-file ./conf/example.conf -name a1 -Dflume.root.logger=INFO,console发送端:[root@master ~]# telnet localhost 44444flume接收:2021-01-21 22:15:39,225 (SinkRunner-PollingRunner-D原创 2021-03-06 11:06:41 · 422 阅读 · 0 评论