黑色的小德牧-CSDN博客

原创 Scala的模式匹配

Scala的模式匹配一、基本语法二、模式守卫三、模式匹配类型3.1 变量和常量3.2 模式匹配的返回值3.3 匹配类型3.4 泛型的类型匹配3.5 匹配数组3.6 匹配元组3.7 匹配列表3.8 匹配对象(option)四、样例类五、变量声明中的模式匹配六、for循环中的模式匹配七、偏函数一、基本语法匹配的值 match { case 选项 => // 代码 case 选项 => //

2021-05-06 19:09:21 487

原创打包时，scala 类不会编译并打包进去

打包时，scala 类不会编译并打包进去1.导入依赖 <build> <plugins> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <v

2021-05-02 08:35:34 300

原创 spark的yarn模式，运行程序找不到lzo

spark的yarn模式，运行程序找不到lzo找不到lzo解决：配置spark-defaults.conf，添加如下spark.jars= /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-xxxx.jar把你lzo的jar包配置到spark里

2021-04-29 19:34:44 294

原创 spark的yarn模式，报错Unknown container

spark的yarn模式，executors的stdout里报错Unknown container报错java.lang.Exception: Unknown container.Container either has not started or has already completed or doesn't belong tothis node at all.解决：配置yarn-site.xml<property> <name>yarn.log.

2021-04-29 19:15:01 882

原创 spark的yarn模式报错，内存溢出

spark的yarn模式报错，内存溢出，任务被杀死1.修改hadoop的yarn-site.xml2.分发配置到其他机器3.重启集群1.修改hadoop的yarn-site.xml<property> <name>yarn.nodemanager.pmem-check-enabled</name> <va

2021-04-29 15:01:33 481

原创 Scala的option对象

Scala的option对象语义语义: 表示值要么存在要么不存在解决了多年java空指针问题some语法： Some[+A](x: A)不为空实现final case class Some[+A](x: A) extends Option[A] { def isEmpty = false def get = x}none语法： None为空实现case object None extends Option[Nothing] { def is

2021-04-29 08:07:21 180

原创 scala的Stream流

scala的Stream流转stream流惰性数据结构.toStream例子 val list1: List[Int] = List(1,2,3,4,5) val s1: Stream[Int] = list1.toStream println(s1) //Stream(1, ?) println(s1.head) //1 println(s1.tail.head) //2 println(s1) //Stream(1,

2021-04-27 15:07:51 468

原创 scala的for用法

scala的for用法遍历for ( i <- a ){ println(i)}循环输出for(i <- 1.to(100)){ println(i)}step步长for (i <- 1 to(100, 2)) { println(i)}for(i <- 1 to 100 by 2 ){ println(i) }倒序输出for(i <- 1 to 100 reverse){ pr

2021-04-24 13:58:28 668 1

原创 Scala的下划线用法

Scala的下划线用法导入包, 通配符import scala.util._元组元素的前缀获取kv的key或者value kv._1函数的隐式参数 (占位符) f(_ + _)方法转函数def f = ...val f1 = f _给类的属性设置默认值class ..var a: Int = _在一个标识符中隔开字符和运算符val a+ //errorval a_+ //goodgoodgood模式匹配的时候通配符case

2021-04-23 18:17:18 123

原创电商数据仓库（十）

基于Apache的电商数据仓库（十）欢迎第22章即席查询：Kylin22.1 Kylin简介22.2 Kylin核心概念22.2.1 OLAP22.2.2 OLAP Cube22.2.3 dimension and measure22.3 Kylin安装22.3.1 依赖环境22.3.2 搭建22.3.2.1 Hbase安装22.3.2.2 Kylin安装22.4 Kylin使用22.4.1 创建工程22.4.2 获取数据源22.4.3 创建model22.4.4 构建cube22.4.5 在cube构建

2021-04-23 10:44:28 761

原创电商数据仓库（九）

基于Apache的电商数据仓库（八）欢迎第20章即席查询：Presto20.1 Presto介绍20.2 Presto安装第20章即席查询：Presto欢迎你好！这是我历经1个半月的学习（Apache和CDH），做完的一个项目，本次和你们分享一下Apache版。感谢您的阅读！第1章~第4章在基于Apache的电商数据仓库（一）第5章~第5章在基于Apache的电商数据仓库（二）第6章~第8章在基于Apache的电商数据仓库（三)第8章~第9章在基于Apache的电商数据仓库（四）第10章

2021-04-23 09:08:28 614

原创电商数据仓库（八）

基于Apache的电商数据仓库（八）欢迎第18章 ADS层搭建18.1 建表18.2 写成脚本第19章 DWS层搭建19.1 用户行为宽表19.2 用户购买商品明细表19.3 新付费用户数第18章 ADS层搭建欢迎你好！这是我历经1个半月的学习（Apache和CDH），做完的一个项目，本次和你们分享一下Apache版。感谢您的阅读！第1章~第4章在基于Apache的电商数据仓库（一）第5章~第5章在基于Apache的电商数据仓库（二）第6章~第8章在基于Apache的电商数据仓库（三)第8章~

2021-04-12 22:48:22 603

原创电商数据仓库（七）

基于Apache的电商数据仓库（七）欢迎第16章 DWD层搭建16.1 建表16.2 写成脚本第17章 DWS层搭建17.1 用户行为宽表17.2 用户购买商品明细表17.3 新付费用户数第18章 ADS层搭建欢迎你好！这是我历经1个半月的学习（Apache和CDH），做完的一个项目，本次和你们分享一下Apache版。感谢您的阅读！第1章~第4章在基于Apache的电商数据仓库（一）第5章~第5章在基于Apache的电商数据仓库（二）第6章~第8章在基于Apache的电商数据仓库（三)第8章~

2021-04-05 23:49:52 273

原创电商数据仓库（六）

基于Apache的电商数据仓库（六）欢迎第13章系统业务数仓概念13.1 电商业务流程10.2 用户新增主题10.3 用户留存主题10.4 每个用户累计访问次数10.5 新收藏用户数第11章 ADS层搭建11.1 用户活跃主题11.2 用户新增主题11.3 用户留存主题11.4 沉默用户数11.5 本周回流用户数11.6 连续活跃主题11.7 各个商品点击次数top3的用户11.8 总点击次数最多的10个用户点击的各个的商品次数11.9 月活跃率11.10 每个用户累计访问次数第12章用户行为数仓部分

2021-03-25 18:50:47 582

原创电商数据仓库（五）

基于Apache的电商数据仓库（五）欢迎第10章 DWS层搭建10.1 用户活跃主题10.2 用户新增主题10.3 用户留存主题10.4 每个用户累计访问次数10.5 新收藏用户数第11章 ADS层搭建11.1 用户活跃主题11.2 用户新增主题11.3 用户留存主题11.4 沉默用户数11.5 本周回流用户数11.6 连续活跃主题11.7 各个商品点击次数top3的用户11.8 总点击次数最多的10个用户点击的各个的商品次数11.9 月活跃率11.10 每个用户累计访问次数第12章报错总结第13章系

2021-03-21 00:50:39 276

原创电商数据仓库（四）

基于Apache的电商数据仓库（四）欢迎第8章 ODS层8.1 创建数据库8.2 创建start日志表8.2 创建event日志表8.3 生成脚本第9章 DWD层9.1 start表操作9.2 event表操作9.3 将event_name,event_json,event_time里面的数据打开到表中第8章 ODS层搭建欢迎你好！这是我历经1个半月的学习（Apache和CDH），做完的一个项目，本次和你们分享一下Apache版。感谢您的阅读！第1章~第4章在基于Apache的电商数据仓库（一）第

2021-03-19 21:48:42 337

原创电商数据仓库（三）

基于Apache的电商数据仓库（二）欢迎第6章数仓分层概念6.1 数仓分层5.2 zookeeper安装5.3 日志采集的flume安装5.4 kafka安装5.5 第一层采集通道编写5.6第二层采集通道编写5.7报错总结第6章数仓分层概念欢迎你好！这是我历经1个半月的学习（Apache和CDH），做完的一个项目，本次和你们分享一下Apache版。感谢您的阅读！第1章~第4章在基于Apache的电商数据仓库（一）第6章数仓分层概念6.1 数仓分层· 5.1.1 规划yarn主

2021-03-19 16:11:59 582

原创电商数据仓库（二）

基于Apache的电商数据仓库（二）欢迎第5章数据采集5.1 hadoop安装5.2 zookeeper安装5.3 日志采集的flume安装5.4 kafka安装5.5 第一层采集通道编写5.6第二层采集通道编写5.7报错总结第6章数仓分层概念欢迎你好！这是我历经1个半月的学习（Apache和CDH），做完的一个项目（Apache版）。感谢您的阅读！第1章~第4章在基于Apache的电商数据仓库（一）第5章数据采集需准备：白板机3台。配置好静态ip，关防火墙，创建cluster用户并给

2021-03-18 23:25:02 349

原创电商数据仓库（一）

基于Apache的电商数据仓库（一）欢迎第1章概念第2章项目需求第3章架构设计3.1所需技术3.2流程设计3.3服务器规划第4章数据生成4.1数据格式举例4.2造数据第五章数据采集欢迎你好！这是我历经2个月的学习，做完的一个项目。感谢您的阅读！第1章概念数据仓库（Data Warehouse）是为企业所有决策制定过程，提供所有系统数据支持的战略的集合。数据仓库简称数仓；通过数仓中的数据分析，可以帮助公司改进业务的流程，提高产品质量等重要决策；对数仓中的数据可以进行：清洗，分类，

2021-03-18 21:43:55 826 3

原创运行Tez时检查到用过多内存而被杀死进程问题

一报错Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown这种问题是从机上运行的Container试图使用过多的内存，而被NodeManager kill掉了二解决方法修改yarn-site.xml<property><name>yarn.nodemanager.vmem-check-enabled</name><value>

2021-02-08 21:21:32 429

原创 CentOS6：yum报错（YumRepo Error，Cannot retrieve XXX: base）

一、报错YumRepo Error: All mirror URLs are not using ftp......Cannot retrieve repository metadata (repomd.xml) for repository: base二、修改/etc/yum.repos.d/CentOS-Base.repo# CentOS-Base.repo## The mirror system uses the connecting IP address of the client a

2021-02-01 00:09:52 427

原创 hive：impossible to write to binary log since BINLOG_FORMAT = STATEMENT

一、报错java.sql.SQLException: Cannot execute statement: impossible to write to binary log since BINLOG_FORMAT = STATEMENT and at least one table uses a storage engine limited to row-based logging. InnoDB is limited to row-logging when transaction isolation

2020-12-02 20:22:24 249

原创 BUG：error in shuffle in localfetcher Caused： java.io.FileNotFoundException

一、机器eclipse二、报错java.lang.Exception: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1Caused by: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1Caused by: j

2020-11-04 19:37:44 449

原创 HDFS的写入数据的流程图

一、HDFS的写入数据的流程图二、HDFS异常写入数据的流程和上面图的前1-6一样，就是第七步不一样！第七步！1.在发送时，先将dataQuene中的packet按顺序发送，发送后再放入到ackquene中。2.每个节点在收到packet后，向客户端发送ack确认消息。3.如果一个packet在发送后，已经收到了所有DN返回的ack确认消息，这个packet会在ackQuene中删除。4.如果一个packet在发送后，在收到DN返回的ack确认消息时超时时！传输中止，ackQuene中的pa

2020-10-30 22:16:20 1031

原创 Eclipse：Maven配置packaging为war报错

一、创建Maven正常的创建maven项目就行了##############################################################################################################################################################################二、创建完成后POM.xml报错##################################

2020-10-24 10:06:21 752

原创完全分布式集群的搭建

1.进程规划原则： ①核心进程尽量分散 ②同质进程尽量分散2.集群间复制①scp scp -r 源文件的用户名@主机名：源文件路径目标文件的用户名@主机名：目标文件路径特点：全量复制②rsync rsync -rvlt 源文件路径目标文件的用户名@主机名：目标文件路径源文件路径是个目录，源文件路径/，只会同步源文件目录中的内容！源文件路径，不仅会同步源文件目录中的内容，包括目录本身也会进行同步！3.配置ssh免密登录如果A机器的

2020-10-22 10:23:20 296

原创 hadoop集群中DataNode启动失败

前言搭建了一个 HDFS 集群，用了 3 台虚拟机，1 台虚拟机是master作为NameNode节点；2 台虚拟机分别是slave1和slave2作为DataNode节点，具体的集群搭建过程可参考「快速搭建 HDFS 系统（超详细版）」这篇博文。1 问题描述在搭建 HDFS 集群的过程中，难免会遇到一些稀奇古怪的问题，就如我遇到的这个问题一样：ISSUE 1，HDFS 集群搭建并启动成功，1 个NameNode节点和 2 个DataNode节点也运行正常，可以在各自的虚拟机中用jps命令查看正在

2020-10-21 17:22:59 1686

qq_43494678的博客