2019年03月_灵佑666

原创 Hive之行转列-合并多列-列转行

行转列：collect_list(不去重) collect_set(去重)它们都是将分组中的某列转为一个数组返回，不同的是collect_list不去重而collect_set去重concat_ws(',',collect_set(column))做简单的实验加深理解，创建一张实验用表，存放用户每天点播视频的记录： 1 2 3 4 5...

2019-03-28 09:21:33 13440

转载 Java工程中几种常见的包：PO，VO，DAO，BIZ,DTO,Service,ServiceImpl

PO：PO:persistant object 持久对象,是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。VO：VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可以和表对应,也可以不,这根据业务的需要。P...

2019-03-30 15:15:39 2373 1

转载迭代与递归的区别，什么是日志文件

相同点：递归和迭代都是循环的一种。不同点： 1、程序结构不同递归是重复调用函数自身实现循环。迭代是函数内某段代码实现循环。其中，迭代与普通循环的区别是：迭代时，循环代码中参与运算的变量同时是保存结果的变量，当前保存的结果作为下一次循环计算的初始值。2、算法结束方式不同递归循环中，遇到满足终止条件的情况时逐层...

2019-03-30 13:22:50 202

本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍，互联网二次革命的移动互联网时代，如何吸引用户、留住用户并深入挖掘用户价值，在激烈的竞争中脱颖而出，是各大电商的重要课题。通过各类大数据对用户进行研究，以数据驱动产品是解决这个课题的主要手段，携程的大数据团队也由此应运而生；经过几年的努力，大数据的相关技术为业务带来了惊人的提升与帮助。以基础大数据的用户...

2019-03-29 21:15:13 476 2

转载图解 5 种 Join 连接及实战案例！（inner/ left/ right/ full/ cross）

1.连接 inner join内连接是基于连接谓词将俩张表（如A和B）的列组合到一起产生新的结果表，在表中存在至少一个匹配时，INNER JOIN 关键字返回行。下面是一个简单的使用案例以下是运行代码及结果2.左外连接 left join左外连接Left join关键字会从左表那里返回所有的行，即使是在右表中没有匹配到的行下面是一个简单的案例下面是测...

2019-03-29 09:09:49 265

转载 Hbase Shell用法

转自：https://smallwildpig.iteye.com/blog/17057181. 简介　　HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海...

2019-03-28 17:10:56 152

原创 Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/types/CopyOnWriteArrayMap

求助？？？Exception in thread "main" java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:240)...

2019-03-27 20:53:53 1047 2

转载 Hive，Hive on Spark和SparkSQL区别

Hive on MapreduceHive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一些操作可以看这篇笔记：新手的Hive指南，至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程执行流程详细解析：Step 1：UI(user interface) 调用 executeQuery 接口...

2019-03-26 13:34:17 375

转载星型模型和雪花模型在数据仓库与数据集市中的使用

（比较长，后面的使用总结更精彩）数据仓库的建设中，一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。一.销售数据仓库星型模型如下：星型模是一种多维的数据关系，它由一个事实表和一组维表组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理，将多个维度集合到一个事实表，形成一个宽表。这也是我们在使用hive...

2019-03-23 16:54:09 1425

转载数据仓库构建六步

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的，这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库系统的原始需求不明确，且不断变化与增加，开发者最初不能确切了解到用户的明确而详细的需求，用户所能提供的无非是需求的大的方向以及部分需求，更不能较准确地预见到以后的需求。因此，采用原型法来进行数据仓库的开发是比较合适的，因为原型法的思想是从...

2019-03-23 16:03:11 797

转载构建Datafrom ：[Ljava.lang.String; is not a valid external type for schema of string

val rddRow = rdd.map(Row(_)) spark.createDataFrame(rddRow,schema)Caused by: java.lang.RuntimeException: Error while encoding: java.lang.RuntimeException: [Ljava.lang.String; is not a valid exter...

2019-03-22 21:22:01 3559 1

转载 recharge大数据充值分析

1.业务概况（显示总订单量、订单成功量、总金额、花费时间）2.业务详细概述（每小时的充值订单量、每小时的充值成功订单量）3.业务质量（每个省份的充值成功订单量）4.实时统计每分钟的充值金额和订单量整体步骤：提取数据库中存储的偏移量–>广播省份映射关系–>获取kafka的数据–>数据处理（JSON对象解析，省份、时间、结果、费用）–>计算业务概况（显示总订单量、...

2019-03-20 21:50:15 1432

转载 Hadoop生态圈常用端口

Hadoop集群的各部分一般会用到多个端口，有些事daemon之间进行交互之用，有些事用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含使用的组件：HDFS、YARN、HBase、Hive、Zookeeper：组件节点默认端口配置用途说明 HDFS DateNode...

2019-03-14 00:06:48 176

转载 nc用法

https://www.cnblogs.com/nmap/p/6148306.html什么是ncnc是netcat的简写，有着网络界的瑞士军刀美誉。因为它短小精悍、功能实用，被设计为一个简单、可靠的网络工具nc的作用（1）实现任意TCP/UDP端口的侦听，nc可以作为server以TCP或UDP方式侦听指定端口（2）端口的扫描，nc可以作为client发起TCP或UDP连接...

2019-03-14 00:05:12 3620

原创 SparkStreaming连接Kafka的两种方式：Receiver和Direct

1.receiverreceiver连接模式：（0.10版本之后不支持）1.使用的是kafka high-level consumer API（傻瓜版）2.receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的，然后Spark Streaming启动的job会去处理那些数据可靠的receiver，有确认机制不可靠的receiver，没有确认机制...

2019-03-14 00:03:58 367

原创 Spark几个重要的端口汇总

50070：HDFSwebUI的端口号8485:journalnode默认的端口号9000：非高可用访问数rpc端口8020：高可用访问数据rpc8088：yarn的webUI的端口号8080：master的webUI，Tomcat的端口号7077：spark基于standalone的提交任务的端口号8081：worker的webUI的端口号18080：histor...

2019-03-14 00:03:04 972

转载 redis集群搭建一台主机与多台主机

redis集群搭建（同机器、不同机器搭建）https://blog.csdn.net/u012042021/article/details/72818759https://blog.csdn.net/alex_melody/article/details/79760980

2019-03-05 20:19:44 900

原创 linux服务器下载或者发送文件到本地（windows）

对于经常使用Linux系统的人员来说，少不了将本地的文件上传到服务器或者从服务器上下载文件到本地，rz / sz命令很方便的帮我们实现了这个功能，但是很多linux系统初始并没有这两个命令。今天，我们就简单的讲解一下如何安装和使用rz、sz命令。rz: Receive Zmodemsz: Send Zmodem方法一：查看yum源，有就直接安装yum list lrzszyum...

2019-03-04 13:14:19 5642

原创 rpm自定义安装目录

比如安装xxx.rpm包，以relocate 参数进行安装，安装到/opt/temp目录：第一个参数是默认安装目录：因为默认安装目录不一定只有一个，所以用 /，不管在哪，都在这个下面rpm -ivh --relocate /=/opt/temp xxx.rpm；以prefix进行安装：安装到 /usr/localrpm -ivh --prefix=/usr/local xxx....

2019-03-03 18:04:10 4452

原创在hadoop2中查看网页中的/tmp目录出现下面的错误

在hadoop2中查看网页中的/tmp目录出现下面的错误：Permission denied: user=dr.who, access=READ_EXECUTE inode="/tmp"1修改一下权限[root@hadoop01 bin]# ./hdfs dfs -chmod -R 755 /tmp1[root@hadoop01 bin]# ./hdfs dfs -chmod -...

2019-03-01 19:22:37 252

onway_goahead的博客