- 博客(27)
- 资源 (1)
- 收藏
- 关注
原创 Scala的模式匹配
Scala的模式匹配一、基本语法二、模式守卫三、模式匹配类型3.1 变量和常量3.2 模式匹配的返回值3.3 匹配类型3.4 泛型的类型匹配3.5 匹配数组3.6 匹配元组3.7 匹配列表3.8 匹配对象(option)四、样例类五、变量声明中的模式匹配六、for循环中的模式匹配七、偏函数一、基本语法 匹配的值 match { case 选项 => // 代码 case 选项 => //
2021-05-06 19:09:21
190
原创 打包时,scala 类不会编译并打包进去
打包时,scala 类不会编译并打包进去1.导入依赖 <build> <plugins> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <v
2021-05-02 08:35:34
246
原创 spark的yarn模式,运行程序找不到lzo
spark的yarn模式,运行程序找不到lzo找不到lzo解决:配置spark-defaults.conf,添加如下spark.jars= /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-xxxx.jar把你lzo的jar包配置到spark里
2021-04-29 19:34:44
220
原创 spark的yarn模式,报错Unknown container
spark的yarn模式,executors的stdout里报错Unknown container报错java.lang.Exception: Unknown container.Container either has not started or has already completed or doesn't belong tothis node at all.解决: 配置yarn-site.xml<property> <name>yarn.log.
2021-04-29 19:15:01
718
原创 spark的yarn模式报错,内存溢出
spark的yarn模式报错,内存溢出,任务被杀死1.修改hadoop的yarn-site.xml2.分发配置到其他机器3.重启集群1.修改hadoop的yarn-site.xml<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true,改成false --><property> <name>yarn.nodemanager.pmem-check-enabled</name> <va
2021-04-29 15:01:33
340
原创 Scala的option对象
Scala的option对象语义语义: 表示值要么存在要么不存在解决了多年java空指针问题some语法: Some[+A](x: A)不为空实现final case class Some[+A](x: A) extends Option[A] { def isEmpty = false def get = x}none语法: None为空实现case object None extends Option[Nothing] { def is
2021-04-29 08:07:21
126
原创 scala的Stream流
scala的Stream流转stream流惰性数据结构.toStream例子 val list1: List[Int] = List(1,2,3,4,5) val s1: Stream[Int] = list1.toStream println(s1) //Stream(1, ?) println(s1.head) //1 println(s1.tail.head) //2 println(s1) //Stream(1,
2021-04-27 15:07:51
401
原创 scala的for用法
scala的for用法遍历for ( i <- a ){ println(i)}循环输出for(i <- 1.to(100)){ println(i)}step步长for (i <- 1 to(100, 2)) { println(i)}for(i <- 1 to 100 by 2 ){ println(i) }倒序输出for(i <- 1 to 100 reverse){ pr
2021-04-24 13:58:28
570
1
原创 Scala的下划线用法
Scala的下划线用法导入包, 通配符import scala.util._元组元素的前缀 获取kv的key或者value kv._1函数的隐式参数 (占位符) f(_ + _)方法转函数def f = ...val f1 = f _给类的属性设置默认值class ..var a: Int = _在一个标识符中隔开字符和运算符val a+ //errorval a_+ //goodgoodgood模式匹配的时候通配符case
2021-04-23 18:17:18
64
原创 电商数据仓库(十)
基于Apache的电商数据仓库(十)欢迎第22章 即席查询:Kylin22.1 Kylin简介22.2 Kylin核心概念22.2.1 OLAP22.2.2 OLAP Cube22.2.3 dimension and measure22.3 Kylin安装22.3.1 依赖环境22.3.2 搭建22.3.2.1 Hbase安装22.3.2.2 Kylin安装22.4 Kylin使用22.4.1 创建工程22.4.2 获取数据源22.4.3 创建model22.4.4 构建cube22.4.5 在cube构建
2021-04-23 10:44:28
233
原创 电商数据仓库(九)
基于Apache的电商数据仓库(八)欢迎第20章 即席查询:Presto20.1 Presto介绍20.2 Presto安装第20章 即席查询:Presto欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章~第5章在基于Apache的电商数据仓库(二)第6章~第8章在基于Apache的电商数据仓库(三)第8章~第9章在基于Apache的电商数据仓库(四)第10章
2021-04-23 09:08:28
232
原创 电商数据仓库(八)
基于Apache的电商数据仓库(八)欢迎第18章 ADS层搭建18.1 建表18.2 写成脚本第19章 DWS层搭建19.1 用户行为宽表19.2 用户购买商品明细表19.3 新付费用户数第18章 ADS层搭建欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章~第5章在基于Apache的电商数据仓库(二)第6章~第8章在基于Apache的电商数据仓库(三)第8章~
2021-04-12 22:48:22
258
原创 电商数据仓库(七)
基于Apache的电商数据仓库(七)欢迎第16章 DWD层搭建16.1 建表16.2 写成脚本第17章 DWS层搭建17.1 用户行为宽表17.2 用户购买商品明细表17.3 新付费用户数第18章 ADS层搭建欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章~第5章在基于Apache的电商数据仓库(二)第6章~第8章在基于Apache的电商数据仓库(三)第8章~
2021-04-05 23:49:52
221
原创 电商数据仓库(六)
基于Apache的电商数据仓库(六)欢迎第13章 系统业务数仓概念13.1 电商业务流程10.2 用户新增主题10.3 用户留存主题10.4 每个用户累计访问次数10.5 新收藏用户数第11章 ADS层搭建11.1 用户活跃主题11.2 用户新增主题11.3 用户留存主题11.4 沉默用户数11.5 本周回流用户数11.6 连续活跃主题11.7 各个商品点击次数top3的用户11.8 总点击次数最多的10个用户点击的各个的商品次数11.9 月活跃率11.10 每个用户累计访问次数第12章 用户行为数仓部分
2021-03-25 18:50:47
202
原创 电商数据仓库(五)
基于Apache的电商数据仓库(五)欢迎第10章 DWS层搭建10.1 用户活跃主题10.2 用户新增主题10.3 用户留存主题10.4 每个用户累计访问次数10.5 新收藏用户数第11章 ADS层搭建11.1 用户活跃主题11.2 用户新增主题11.3 用户留存主题11.4 沉默用户数11.5 本周回流用户数11.6 连续活跃主题11.7 各个商品点击次数top3的用户11.8 总点击次数最多的10个用户点击的各个的商品次数11.9 月活跃率11.10 每个用户累计访问次数第12章 报错总结第13章 系
2021-03-21 00:50:39
197
原创 电商数据仓库(四)
基于Apache的电商数据仓库(四)欢迎第8章 ODS层8.1 创建数据库8.2 创建start日志表8.2 创建event日志表8.3 生成脚本第9章 DWD层9.1 start表操作9.2 event表操作9.3 将event_name,event_json,event_time里面的数据打开到表中第8章 ODS层搭建欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第
2021-03-19 21:48:42
249
原创 电商数据仓库(三)
基于Apache的电商数据仓库(二)欢迎第6章 数仓分层概念6.1 数仓分层5.2 zookeeper安装5.3 日志采集的flume安装5.4 kafka安装5.5 第一层采集通道编写5.6第二层采集通道编写5.7报错总结第6章 数仓分层概念欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目,本次和你们分享一下Apache版。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第6章 数仓分层概念6.1 数仓分层· 5.1.1 规划yarn主
2021-03-19 16:11:59
231
原创 电商数据仓库(二)
基于Apache的电商数据仓库(二)欢迎第5章 数据采集5.1 hadoop安装5.2 zookeeper安装5.3 日志采集的flume安装5.4 kafka安装5.5 第一层采集通道编写5.6第二层采集通道编写5.7报错总结第6章 数仓分层概念欢迎你好!这是我历经1个半月的学习(Apache和CDH),做完的一个项目(Apache版)。感谢您的阅读!第1章~第4章在基于Apache的电商数据仓库(一)第5章 数据采集需准备:白板机3台。配置好静态ip,关防火墙,创建cluster用户并给
2021-03-18 23:25:02
271
原创 电商数据仓库(一)
基于Apache的电商数据仓库(一)欢迎第1章 概念第2章 项目需求第3章 架构设计3.1所需技术3.2流程设计3.3服务器规划第4章 数据生成4.1数据格式举例4.2造数据第五章 数据采集欢迎你好!这是我历经2个月的学习,做完的一个项目。感谢您的阅读!第1章 概念数据仓库(Data Warehouse)是为企业所有决策制定过程,提供所有系统数据支持的战略的集合。数据仓库简称数仓;通过数仓中的数据分析,可以帮助公司改进业务的流程,提高产品质量等重要决策;对数仓中的数据可以进行:清洗,分类,
2021-03-18 21:43:55
462
3
原创 运行Tez时检查到用过多内存而被杀死进程问题
一 报错Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown这种问题是从机上运行的Container试图使用过多的内存,而被NodeManager kill掉了二 解决方法修改yarn-site.xml<property><name>yarn.nodemanager.vmem-check-enabled</name><value>
2021-02-08 21:21:32
336
原创 CentOS6:yum报错(YumRepo Error,Cannot retrieve XXX: base)
一、报错YumRepo Error: All mirror URLs are not using ftp......Cannot retrieve repository metadata (repomd.xml) for repository: base二、修改/etc/yum.repos.d/CentOS-Base.repo# CentOS-Base.repo## The mirror system uses the connecting IP address of the client a
2021-02-01 00:09:52
333
原创 hive:impossible to write to binary log since BINLOG_FORMAT = STATEMENT
一、报错java.sql.SQLException: Cannot execute statement: impossible to write to binary log since BINLOG_FORMAT = STATEMENT and at least one table uses a storage engine limited to row-based logging. InnoDB is limited to row-logging when transaction isolation
2020-12-02 20:22:24
187
原创 BUG:error in shuffle in localfetcher Caused: java.io.FileNotFoundException
一、机器eclipse二、报错java.lang.Exception: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1Caused by: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1Caused by: j
2020-11-04 19:37:44
407
原创 HDFS的写入数据的流程图
一、HDFS的写入数据的流程图二、HDFS异常写入数据的流程和上面图的前1-6一样,就是第七步不一样!第七步!1.在发送时,先将dataQuene中的packet按顺序发送,发送后再放入到ackquene中。2.每个节点在收到packet后,向客户端发送ack确认消息。3.如果一个packet在发送后,已经收到了所有DN返回的ack确认消息,这个packet会在ackQuene中删除。4.如果一个packet在发送后,在收到DN返回的ack确认消息时超时时!传输中止,ackQuene中的pa
2020-10-30 22:16:20
924
原创 Eclipse:Maven配置packaging为war报错
一、创建Maven正常的创建maven项目就行了##############################################################################################################################################################################二、创建完成后POM.xml报错##################################
2020-10-24 10:06:21
673
原创 完全分布式集群的搭建
1.进程规划原则: ①核心进程尽量分散 ②同质进程尽量分散2.集群间复制①scp scp -r 源文件的用户名@主机名:源文件路径 目标文件的用户名@主机名:目标文件路径 特点: 全量复制②rsync rsync -rvlt 源文件路径 目标文件的用户名@主机名:目标文件路径 源文件路径是个目录,源文件路径/,只会同步源文件目录中的内容! 源文件路径,不仅会同步源文件目录中的内容,包括目录本身也会进行同步!3.配置ssh免密登录 如果A机器的
2020-10-22 10:23:20
235
原创 hadoop集群中DataNode启动失败
前言搭建了一个 HDFS 集群,用了 3 台虚拟机,1 台虚拟机是master作为NameNode节点;2 台虚拟机分别是slave1和slave2作为DataNode节点,具体的集群搭建过程可参考「快速搭建 HDFS 系统(超详细版)」这篇博文。1 问题描述在搭建 HDFS 集群的过程中,难免会遇到一些稀奇古怪的问题,就如我遇到的这个问题一样:ISSUE 1,HDFS 集群搭建并启动成功,1 个NameNode节点和 2 个DataNode节点也运行正常, 可以在各自的虚拟机中用jps命令查看正在
2020-10-21 17:22:59
1503
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人