自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Hive之行转列-合并多列-列转行

行转列:collect_list(不去重) collect_set(去重)它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重concat_ws(',',collect_set(column))做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录: 1 2 3 4 5...

2019-03-28 09:21:33 13440

转载 Java工程中几种常见的包:PO,VO,DAO,BIZ,DTO,Service,ServiceImpl

PO:PO:persistant object 持久对象,是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。VO:VO:value object值对象。通常用于业务层之间的数据传递,和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可以和表对应,也可以不,这根据业务的需要。P...

2019-03-30 15:15:39 2373 1

转载 迭代与递归的区别,什么是日志文件

相同点:递归和迭代都是循环的一种。不同点: 1、程序结构不同 递归是重复调用函数自身实现循环。 迭代是函数内某段代码实现循环。其中,迭代与普通循环的区别是:迭代时,循环代码中参与运算的变量同时是保存结果的变量,当前保存的结果作为下一次循环计算的初始值。2、算法结束方式不同递归循环中,遇到满足终止条件的情况时逐层...

2019-03-30 13:22:50 202

转载 大数据项目分析

本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程的大数据团队也由此应运而生;经过几年的努力,大数据的相关技术为业务带来了惊人的提升与帮助。以基础大数据的用户...

2019-03-29 21:15:13 476 2

转载 图解 5 种 Join 连接及实战案例!(inner/ left/ right/ full/ cross)

1.连接 inner join内连接是基于连接谓词将俩张表(如A和B)的列组合到一起产生新的结果表,在表中存在至少一个匹配时,INNER JOIN 关键字返回行。下面是一个简单的使用案例以下是运行代码及结果2.左外连接 left join左外连接Left join关键字会从左表那里返回所有的行,即使是在右表中没有匹配到的行下面是一个简单的案例下面是测...

2019-03-29 09:09:49 265

转载 Hbase Shell用法

转自:https://smallwildpig.iteye.com/blog/17057181. 简介  HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海...

2019-03-28 17:10:56 152

原创 Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/types/CopyOnWriteArrayMap

求助???Exception in thread "main" java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:240)...

2019-03-27 20:53:53 1047 2

转载 Hive,Hive on Spark和SparkSQL区别

Hive on MapreduceHive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程执行流程详细解析:Step 1:UI(user interface) 调用 executeQuery 接口...

2019-03-26 13:34:17 375

转载 星型模型和雪花模型在数据仓库与数据集市中的使用

(比较长,后面的使用总结更精彩)数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。一.销售数据仓库星型模型如下:星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive...

2019-03-23 16:54:09 1425

转载 数据仓库构建六步

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求, 更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从...

2019-03-23 16:03:11 797

转载 构建Datafrom :[Ljava.lang.String; is not a valid external type for schema of string

val rddRow = rdd.map(Row(_)) spark.createDataFrame(rddRow,schema)Caused by: java.lang.RuntimeException: Error while encoding: java.lang.RuntimeException: [Ljava.lang.String; is not a valid exter...

2019-03-22 21:22:01 3559 1

转载 recharge大数据充值分析

1.业务概况(显示总订单量、订单成功量、总金额、花费时间)2.业务详细概述(每小时的充值订单量、每小时的充值成功订单量)3.业务质量(每个省份的充值成功订单量)4.实时统计每分钟的充值金额和订单量整体步骤:提取数据库中存储的偏移量–>广播省份映射关系–>获取kafka的数据–>数据处理(JSON对象解析,省份、时间、结果、费用)–>计算业务概况(显示总订单量、...

2019-03-20 21:50:15 1432

转载 Hadoop生态圈常用端口

Hadoop集群的各部分一般会用到多个端口,有些事daemon之间进行交互之用,有些事用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含使用的组件:HDFS、YARN、HBase、Hive、Zookeeper:组件 节点 默认端口 配置 用途说明 HDFS DateNode...

2019-03-14 00:06:48 176

转载 nc用法

https://www.cnblogs.com/nmap/p/6148306.html什么是ncnc是netcat的简写,有着网络界的瑞士军刀美誉。因为它短小精悍、功能实用,被设计为一个简单、可靠的网络工具nc的作用(1)实现任意TCP/UDP端口的侦听,nc可以作为server以TCP或UDP方式侦听指定端口(2)端口的扫描,nc可以作为client发起TCP或UDP连接...

2019-03-14 00:05:12 3620

原创 SparkStreaming连接Kafka的两种方式:Receiver和Direct

1.receiverreceiver连接模式:(0.10版本之后不支持)1.使用的是kafka high-level consumer API(傻瓜版)2.receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的,然后Spark Streaming启动的job会去处理那些数据可靠的receiver,有确认机制不可靠的receiver,没有确认机制...

2019-03-14 00:03:58 367

原创 Spark几个重要的端口汇总

50070:HDFSwebUI的端口号8485:journalnode默认的端口号9000:非高可用访问数rpc端口8020:高可用访问数据rpc8088:yarn的webUI的端口号8080:master的webUI,Tomcat的端口号7077:spark基于standalone的提交任务的端口号8081:worker的webUI的端口号18080:histor...

2019-03-14 00:03:04 972

转载 redis集群搭建一台主机与多台主机

redis集群搭建(同机器、不同机器搭建)https://blog.csdn.net/u012042021/article/details/72818759https://blog.csdn.net/alex_melody/article/details/79760980

2019-03-05 20:19:44 900

原创 linux服务器 下载或者发送文件到本地(windows)

对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能,但是很多linux系统初始并没有这两个命令。今天,我们就简单的讲解一下如何安装和使用rz、sz命令。rz: Receive Zmodemsz: Send Zmodem方法一:查看yum源,有就直接安装yum list lrzszyum...

2019-03-04 13:14:19 5642

原创 rpm自定义安装目录

比如安装xxx.rpm包,以relocate 参数进行安装,安装到/opt/temp目录:第一个参数是默认安装目录:因为默认安装目录不一定只有一个,所以用 /,不管在哪,都在这个下面rpm -ivh --relocate /=/opt/temp xxx.rpm;以prefix进行安装:安装到 /usr/localrpm -ivh --prefix=/usr/local xxx....

2019-03-03 18:04:10 4452

原创 在hadoop2中查看网页中的/tmp目录出现下面的错误

在hadoop2中查看网页中的/tmp目录出现下面的错误:Permission denied: user=dr.who, access=READ_EXECUTE inode="/tmp"1修改一下权限[root@hadoop01 bin]# ./hdfs dfs -chmod -R 755 /tmp1[root@hadoop01 bin]# ./hdfs dfs -chmod -...

2019-03-01 19:22:37 252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除