自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 Scala的模式匹配

Scala的模式匹配一、基本语法二、模式守卫三、模式匹配类型3.1 变量和常量3.2 模式匹配的返回值3.3 匹配类型3.4 泛型的类型匹配3.5 匹配数组3.6 匹配元组3.7 匹配列表3.8 匹配对象(option)四、样例类五、变量声明中的模式匹配六、for循环中的模式匹配七、偏函数一、基本语法 匹配的值 match { case 选项 => // 代码 case 选项 => //

2021-05-06 19:09:21 190

原创 打包时,scala 类不会编译并打包进去

打包时,scala 类不会编译并打包进去1.导入依赖 <build> <plugins> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <v

2021-05-02 08:35:34 246

原创 spark的yarn模式,运行程序找不到lzo

spark的yarn模式,运行程序找不到lzo找不到lzo解决:配置spark-defaults.conf,添加如下spark.jars= /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-xxxx.jar把你lzo的jar包配置到spark里

2021-04-29 19:34:44 220

原创 spark的yarn模式,报错Unknown container

spark的yarn模式,executors的stdout里报错Unknown container报错java.lang.Exception: Unknown container.Container either has not started or has already completed or doesn't belong tothis node at all.解决: 配置yarn-site.xml<property> <name>yarn.log.

2021-04-29 19:15:01 718

原创 spark的yarn模式报错,内存溢出

spark的yarn模式报错,内存溢出,任务被杀死1.修改hadoop的yarn-site.xml2.分发配置到其他机器3.重启集群1.修改hadoop的yarn-site.xml<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true,改成false --><property> <name>yarn.nodemanager.pmem-check-enabled</name> <va

2021-04-29 15:01:33 340

原创 Scala的option对象

Scala的option对象语义语义: 表示值要么存在要么不存在解决了多年java空指针问题some语法: Some[+A](x: A)不为空实现final case class Some[+A](x: A) extends Option[A] { def isEmpty = false def get = x}none语法: None为空实现case object None extends Option[Nothing] { def is

2021-04-29 08:07:21 126

原创 scala的Stream流

scala的Stream流转stream流惰性数据结构.toStream例子 val list1: List[Int] = List(1,2,3,4,5) val s1: Stream[Int] = list1.toStream println(s1) //Stream(1, ?) println(s1.head) //1 println(s1.tail.head) //2 println(s1) //Stream(1,

2021-04-27 15:07:51 401

原创 scala的for用法

scala的for用法遍历for ( i <- a ){ println(i)}循环输出for(i <- 1.to(100)){ println(i)}step步长for (i <- 1 to(100, 2)) { println(i)}for(i <- 1 to 100 by 2 ){ println(i) }倒序输出for(i <- 1 to 100 reverse){ pr

2021-04-24 13:58:28 570 1

原创 Scala的下划线用法

Scala的下划线用法导入包, 通配符import scala.util._元组元素的前缀 获取kv的key或者value kv._1函数的隐式参数 (占位符) f(_ + _)方法转函数def f = ...val f1 = f _给类的属性设置默认值class ..var a: Int = _在一个标识符中隔开字符和运算符val a+ //errorval a_+ //goodgoodgood模式匹配的时候通配符case

2021-04-23 18:17:18 64

原创 电商数据仓库(十)

基于Apache的电商数据仓库(十)欢迎第22章 即席查询:Kylin22.1 Kylin简介22.2 Kylin核心概念22.2.1 OLAP22.2.2 OLAP Cube22.2.3 dimension and measure22.3 Kylin安装22.3.1 依赖环境22.3.2 搭建22.3.2.1 Hbase安装22.3.2.2 Kylin安装22.4 Kylin使用22.4.1 创建工程22.4.2 获取数据源22.4.3 创建model22.4.4 构建cube22.4.5 在cube构建

2021-04-23 10:44:28 233

原创 电商数据仓库(九)

基于Apache的电商数据仓库(八)欢迎第20章 即席查询:Presto20.1 Presto介绍20.2 Presto安装第20章 即席查询:Presto欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章~第5章在基于Apache的电商数据仓库(二)第6章~第8章在基于Apache的电商数据仓库(三)第8章~第9章在基于Apache的电商数据仓库(四)第10章

2021-04-23 09:08:28 232

原创 电商数据仓库(八)

基于Apache的电商数据仓库(八)欢迎第18章 ADS层搭建18.1 建表18.2 写成脚本第19章 DWS层搭建19.1 用户行为宽表19.2 用户购买商品明细表19.3 新付费用户数第18章 ADS层搭建欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章~第5章在基于Apache的电商数据仓库(二)第6章~第8章在基于Apache的电商数据仓库(三)第8章~

2021-04-12 22:48:22 258

原创 电商数据仓库(七)

基于Apache的电商数据仓库(七)欢迎第16章 DWD层搭建16.1 建表16.2 写成脚本第17章 DWS层搭建17.1 用户行为宽表17.2 用户购买商品明细表17.3 新付费用户数第18章 ADS层搭建欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章~第5章在基于Apache的电商数据仓库(二)第6章~第8章在基于Apache的电商数据仓库(三)第8章~

2021-04-05 23:49:52 221

原创 电商数据仓库(六)

基于Apache的电商数据仓库(六)欢迎第13章 系统业务数仓概念13.1 电商业务流程10.2 用户新增主题10.3 用户留存主题10.4 每个用户累计访问次数10.5 新收藏用户数第11章 ADS层搭建11.1 用户活跃主题11.2 用户新增主题11.3 用户留存主题11.4 沉默用户数11.5 本周回流用户数11.6 连续活跃主题11.7 各个商品点击次数top3的用户11.8 总点击次数最多的10个用户点击的各个的商品次数11.9 月活跃率11.10 每个用户累计访问次数第12章 用户行为数仓部分

2021-03-25 18:50:47 202

原创 电商数据仓库(五)

基于Apache的电商数据仓库(五)欢迎第10章 DWS层搭建10.1 用户活跃主题10.2 用户新增主题10.3 用户留存主题10.4 每个用户累计访问次数10.5 新收藏用户数第11章 ADS层搭建11.1 用户活跃主题11.2 用户新增主题11.3 用户留存主题11.4 沉默用户数11.5 本周回流用户数11.6 连续活跃主题11.7 各个商品点击次数top3的用户11.8 总点击次数最多的10个用户点击的各个的商品次数11.9 月活跃率11.10 每个用户累计访问次数第12章 报错总结第13章 系

2021-03-21 00:50:39 197

原创 电商数据仓库(四)

基于Apache的电商数据仓库(四)欢迎第8章 ODS层8.1 创建数据库8.2 创建start日志表8.2 创建event日志表8.3 生成脚本第9章 DWD层9.1 start表操作9.2 event表操作9.3 将event_name,event_json,event_time里面的数据打开到表中第8章 ODS层搭建欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第

2021-03-19 21:48:42 249

原创 电商数据仓库(三)

基于Apache的电商数据仓库(二)欢迎第6章 数仓分层概念6.1 数仓分层5.2 zookeeper安装5.3 日志采集的flume安装5.4 kafka安装5.5 第一层采集通道编写5.6第二层采集通道编写5.7报错总结第6章 数仓分层概念欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第6章 数仓分层概念6.1 数仓分层· 5.1.1 规划yarn主

2021-03-19 16:11:59 231

原创 电商数据仓库(二)

基于Apache的电商数据仓库(二)欢迎第5章 数据采集5.1 hadoop安装5.2 zookeeper安装5.3 日志采集的flume安装5.4 kafka安装5.5 第一层采集通道编写5.6第二层采集通道编写5.7报错总结第6章 数仓分层概念欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目(Apache版)。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章 数据采集需准备:白板机3台。配置好静态ip,关防火墙,创建cluster用户并给

2021-03-18 23:25:02 271

原创 电商数据仓库(一)

基于Apache的电商数据仓库(一)欢迎第1章 概念第2章 项目需求第3章 架构设计3.1所需技术3.2流程设计3.3服务器规划第4章 数据生成4.1数据格式举例4.2造数据第五章 数据采集欢迎你好!这是我历经2个月的学习,做完的一个项目。感谢您的阅读!第1章 概念数据仓库(Data Warehouse)是为企业所有决策制定过程,提供所有系统数据支持的战略的集合。数据仓库简称数仓;通过数仓中的数据分析,可以帮助公司改进业务的流程,提高产品质量等重要决策;对数仓中的数据可以进行:清洗,分类,

2021-03-18 21:43:55 462 3

原创 运行Tez时检查到用过多内存而被杀死进程问题

一 报错Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown这种问题是从机上运行的Container试图使用过多的内存,而被NodeManager kill掉了二 解决方法修改yarn-site.xml<property><name>yarn.nodemanager.vmem-check-enabled</name><value>

2021-02-08 21:21:32 336

原创 CentOS6:yum报错(YumRepo Error,Cannot retrieve XXX: base)

一、报错YumRepo Error: All mirror URLs are not using ftp......Cannot retrieve repository metadata (repomd.xml) for repository: base二、修改/etc/yum.repos.d/CentOS-Base.repo# CentOS-Base.repo## The mirror system uses the connecting IP address of the client a

2021-02-01 00:09:52 333

原创 hive:impossible to write to binary log since BINLOG_FORMAT = STATEMENT

一、报错java.sql.SQLException: Cannot execute statement: impossible to write to binary log since BINLOG_FORMAT = STATEMENT and at least one table uses a storage engine limited to row-based logging. InnoDB is limited to row-logging when transaction isolation

2020-12-02 20:22:24 187

原创 BUG:error in shuffle in localfetcher Caused: java.io.FileNotFoundException

一、机器eclipse二、报错java.lang.Exception: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1Caused by: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1Caused by: j

2020-11-04 19:37:44 407

原创 HDFS的写入数据的流程图

一、HDFS的写入数据的流程图二、HDFS异常写入数据的流程和上面图的前1-6一样,就是第七步不一样!第七步!1.在发送时,先将dataQuene中的packet按顺序发送,发送后再放入到ackquene中。2.每个节点在收到packet后,向客户端发送ack确认消息。3.如果一个packet在发送后,已经收到了所有DN返回的ack确认消息,这个packet会在ackQuene中删除。4.如果一个packet在发送后,在收到DN返回的ack确认消息时超时时!传输中止,ackQuene中的pa

2020-10-30 22:16:20 924

原创 Eclipse:Maven配置packaging为war报错

一、创建Maven正常的创建maven项目就行了##############################################################################################################################################################################二、创建完成后POM.xml报错##################################

2020-10-24 10:06:21 673

原创 完全分布式集群的搭建

1.进程规划原则: ①核心进程尽量分散 ②同质进程尽量分散2.集群间复制①scp scp -r 源文件的用户名@主机名:源文件路径 目标文件的用户名@主机名:目标文件路径 特点: 全量复制②rsync rsync -rvlt 源文件路径 目标文件的用户名@主机名:目标文件路径 源文件路径是个目录,源文件路径/,只会同步源文件目录中的内容! 源文件路径,不仅会同步源文件目录中的内容,包括目录本身也会进行同步!3.配置ssh免密登录 如果A机器的

2020-10-22 10:23:20 235

原创 hadoop集群中DataNode启动失败

前言搭建了一个 HDFS 集群,用了 3 台虚拟机,1 台虚拟机是master作为NameNode节点;2 台虚拟机分别是slave1和slave2作为DataNode节点,具体的集群搭建过程可参考「快速搭建 HDFS 系统(超详细版)」这篇博文。1 问题描述在搭建 HDFS 集群的过程中,难免会遇到一些稀奇古怪的问题,就如我遇到的这个问题一样:ISSUE 1,HDFS 集群搭建并启动成功,1 个NameNode节点和 2 个DataNode节点也运行正常, 可以在各自的虚拟机中用jps命令查看正在

2020-10-21 17:22:59 1503

spark-2.1.1.zip

spark-2.1.1

2021-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除