2020年09月_Knight_AL

原创大数据面试大保健(6) | Hive相关总结

Hive的架构mr引擎：基于磁盘，计算时间比较长，但是能算出结果生产环境(周指标，月指标，年指标)tez引擎：基于内存，计算速度快，如果宕机，数据直接丢掉生产环境(临时调试，容易oom)spark引擎：基于内存和磁盘生产环境(每天的定时任务) hive与mysql的区别 hive mysql数据量大小大小速度数据量大/快 ..

2020-09-30 16:54:40 268

目录基本信息挂了数据丢失重复数据数据积压优化其他基本信息1.组成producer brokers consumer zookeeper2.需要安装多少台2 * (生产者峰值生产速率 * 副本 / 100) + 1 = 3台3.副本多少副本2-3个，2个居多副本的优势：提高可靠性副本劣势：增加了网络IO传输4.生产者峰值生产速率？压测百兆/s 消费速率百兆/s5.监控器用的什么？KafkaManager、KafkaMonitor、KafkaEagle

2020-09-29 12:30:33 358

原创大数据面试大保健(4) | flume相关总结

flume三件事 1.组成source channel sink 事务(put/take)taildir source（1）断点续传，支持多目录（2）哪个flume版本产生的？ Apache1.7 cdh1.6（3）没有断点续传功能是什么做的？自定义（4）taildir挂了怎么办？不会丢数据：断点续传重复数据（5）怎么处理重复数据不处理：生产环境下不处理处理在taildirsource里面增加自定义事物找兄弟：下一级处理(hive dwd sparkst

2020-09-28 19:52:13 274

原创大数据面试大保健(3) | zookeeper相关总结

1.半数机制安装奇数台 2.常用命令ls get create 3.paxos算法一般去面试今日头条才会问 4.安装台数10台服务器安装多少zk 3台20台服务器安装多少zk 5台50台服务器安装多少zk 7台100台服务器安装多少zk 11台Zookeeper越多越好还是越少越好台数多：好处：提高可靠性坏处：影响通信延时...

2020-09-28 13:51:32 223

原创大数据面试大保健(2) | hadoop相关总结

文章目录入门HDFSMapReduceYARNhadoop参数调优入门 1.常用端口号50070,8088,19888,9000dfs.namenode.http-address:50070dfs.datanode.http-address:50075SecondaryNameNode辅助名称节点端口号：50090dfs.datanode.address:50010fs.defaultFS:8020 或者9000yarn.resourcemanager.webapp.address:8

2020-09-27 13:48:22 424

原创 Hadoop参数调优

1．资源相关参数（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）（2）应该在YARN启动之前就配置在服务器的配置文件中才能生效（yarn-default.xml）（3）Shuffle性能优化的关键参数，应在YARN启动之前就配置好（mapred-default.xml）...

2020-09-26 17:53:07 198

原创大数据面试大保健(1) | liunx&shell

一.Linux 1.常用高级命令列出5个 ps -ef 查找进程 top 查看内存 df -h 查看磁盘存储情况 iotop 查看磁盘IO读写(yum install iotop安装) uptime 查看报告系统运行时长及平均负载 iotop -o 直接查看比较高的磁盘读写程序 nestat -tunlp | grep 端口号查看端口占用情况 ps aux 查看进程二.Shell 1.常用工具 (只需要知道

2020-09-26 17:14:27 424 1

原创 In order to set a constant number of reducers: set mapreduce.job.reduces=＜number＞卡在这里不动

Query ID = root_20200922113537_352b88b7-f5e8-4865-8c1b-68a5182230abTotal jobs = 1Launching Job 1 out of 1Number of reduce tasks not specified. Estimated from input data size: 1In order to change the average load for a reducer (in bytes): set hive.exe

2020-09-26 16:19:23 2538 1

原创大数据项目实战(8) | 从 Kafka读取数据并写入到 Phoenix

建议先看这一篇，再做这一篇目录从 Kafka 读取数据写入数据到 Phoenix从 Kafka 读取数据 1.添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> </dependency> &lt

2020-09-25 21:31:47 425

原创大数据项目实战(7) | 从Canal读取数据到Kafka

目录从Canal读取数据准备数据库数据代码实现读取数据发送到Kafka从Canal读取数据添加依赖  <dependency> <groupId>com.alibaba.otter&

2020-09-24 17:21:29 637

原创大数据项目实战(6) | 使用 Canal

目录为什么需要 CanalCanal 工作原理Mysql 的主从复制Canal 的工作原理Mysql 的 Binary logbinlog 格式配置Mysql安装 canal 和启动业务数据, 比如用户的订单,支付等操作会存储在 Mysql 中. 为便于 SparkStreaming 对这些业务数据实时分析处理, 这些数据一般也会再存储到 Kafka 中.为什么需要 Canal 从 Mysql 到 Kafka 的过程中, 如果每次都是全表扫描进行数据的转移, 则非常耗时, - - [ ] 并且也会

2020-09-23 11:09:36 278

原创大数据项目实战(5) | 使用 Spark Streaming搭建实时处理模块

什么叫日活:通常: 打开应用的用户即为活跃用户，不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。也就是只需要统计第一次打开即可游戏用户: 每天打开/登录游戏的用户数（针对游戏DAU的定义）我们采用第一种日活的定义, 日活(DAU)统计思路:从 kafka 读取用户启动日志当天只保留用户的第一次启动记录, 过滤掉其他启动记录: 借助于 Redis然后把第一次启动记录保存在 hbase 以供其他应用查询创建实现处理模块模块命名: gmall-realtime加入依赖&.

2020-09-22 18:05:42 343

原创大数据项目实战(4) | 使用 Nginx 负载均衡

目录一.Nginx 简介介绍Nginx 和 Tomcat 的关系Nginx 三大功能二.Nginx 安装配置负载均衡一.Nginx 简介维基百科:https://zh.wikipedia.org/wiki/Nginx介绍 Nginx (读作“engine x”), 是一个高性能的 HTTP 和反向代理服务器 , 特点是占有内存少，并发能力强，事实上 nginx 的并发能力确实在同类型的网页服务器中表现较好，中国大陆使用 nginx 网站用户有：百度、京东、新浪、网易、腾讯、淘宝等。Nginx.

2020-09-21 19:40:21 265

原创大数据项目实战(3) | 启动数据采集服务器

思考怎么解决一个子类只能有一个父类解决方案方法步骤将gmall-logger中pom.xml的parent复制到gmall1015中pom.xml

2020-09-21 14:54:53 447

原创大数据项目实战(2) | 模拟数据

整个项目我们要做的事情:创建父工程父工程Module：gmall1015给父工程添加依赖：<groupId>org.example</groupId> <artifactId>gmall1015</artifactId> <packaging>pom</packaging> <version>1.0-SNAPSHOT</version> <modules>

2020-09-20 15:16:13 852

原创大数据项目实战(1) | 离线和实时处理架构

大数据处理分离线分析架构和实时处理架构.• 离线需求一般是根据前一日的数据生成报表等数据，虽然统计指标、报表繁多，但是对时效性不敏感。• 实时需求主要侧重于对当日数据的实时监控，通常业务逻辑相对离线需求简单一下，统计指标也少一些，但是更注重数据的时效性，以及用户的交互性。离线处理架构离线分析架构（如Hive，Map/Reduce，Spark Sql等）可以满足数据后分析，数据挖掘的应用需求。实时处理架构对于实时性要求高的应用，如用户即时详单查询，业务量监控等，需要应用实时处理架构。..

2020-09-20 14:56:17 1828

原创 Error: Could not find or load main class com.alibaba.otter.canal.deployer.CanalLauncher

Error: Could not find or load main class com.alibaba.otter.canal.deployer.CanalLauncher 原因:版本问题解决方案：下载最新版本！https://github.com/alibaba/canal/releases下载慢建议使用迅雷下载

2020-09-16 21:17:22 1761 4

原创 liunx下使用java -jar和java -cp

java -jarjava -jar java gmall-logger-0.0.1-SNAPSHOT.jarjava -cp当一个jar包有多个主类建议使用java -cp,指定主类名java -cp gmall-logger-0.0.1-SNAPSHOT.jar + 主类名那怎么看jar包的全类名右键jar包打开所在的路径，进行解压点击META-INF->MANIFEST.MF...

2020-09-15 13:08:00 170

原创 Canal安装部署

目录配置Mysql安装 canal 和启动配置Mysql 步骤 1: 赋权限(可以省略, 后面都是使用的root用户)GRANT ALL PRIVILEGES ON *.* TO canal@'%' IDENTIFIED BY 'canal'; 步骤 2: 开启 binlog打开文件/etc/my.cnf, 如果没有就创建一个添加如下配置:[mysqld]server-id= 1log-bin= mysql-binbinlog_format= row 步骤 3: 重启 m

2020-09-14 17:55:13 430

原创 Canal的原理

目录为什么需要 CanalCanal 工作原理Mysql 的主从复制Canal 的工作原理Mysql 的 Binary logbinlog 格式为什么需要 Canal 从 Mysql 到 Kafka 的过程中, 如果每次都是全表扫描进行数据的转移, 则非常耗时, - - [ ] 并且也会对 Mysql 造成性能的影响. 最好的办法是使用专门的工具能够实时的监控 Mysql 数据的变化. Canal 就是一个我们想要的工具. Canal 的作用就是实时同步 MysqlCanal 工作原理My

2020-09-14 10:36:35 388

原创 nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)

nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)nginx: [emerg] bind() to 0.0.0.0:80 fail

2020-09-13 20:47:38 211

原创 SQuirreL SQL Client怎么修改字体大小

2020-09-13 11:32:06 1093

原创 SQuirreL SQL Client的安装

目录安装 Squirrel配置 Squirrel使用 Squirrel 查询数据安装 Squirrel 步骤 1: 下载 Squirrelhttp://squirrel-sql.sourceforge.net/ 步骤 2: 选择 java 打开方式由于下载的是一个可执行 jar, 很多 windows 操作系统默认用压缩工具打开, 需要手动改成用 java 打开在cmd上输入(找到正确的路径)java -jar squirrel-sql-3.9.1-standard.jar 步骤

2020-09-12 19:20:21 828

原创 SpringBoot使用log4j给日志落盘

写磁盘，使用log4j但是springboot，内置的日志是logging所以，1.需要把logging去掉 2.换成log4j 把logging去掉<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter</artifactId> <exclusions> &l

2020-09-12 19:11:15 569

原创如何使用脚本关闭进程！

目标：关闭QuorumPeerMain代码实现ps -ef | grep QuorumPeerMain | grep -v grep | awk '{print $2}' | xargs kill

2020-09-11 21:26:25 1271

原创 Spark Streaming项目实战(2) | 最近 1 小时广告点击量实时统计

统计各广告最近 1 小时内的点击量趋势：各广告最近 1 小时内各分钟的点击量分析怎么实现统计各广告最近1个小时内的点击量趋势：各广告最近1个小时内分钟的点击量，每6秒统计一次1.各广告 -> 按照广告分钟2.最近1个小时，每6秒统计一次 -> 窗口：窗口长度1个小时窗口的滑动步长5s-------------1.先把窗口分好2.按照广告分组，进行聚合3.按照广告分组，把这个广告下所有的分钟记录在一起代码实现

2020-09-11 20:16:31 881

原创 Spark Streaming项目实战(1) | 每天每地区热门广告 Top3

目录一.准备数据1.数据生成方式2.数据生成模块3.从 Kafka 读取数据1创建util项目创建app项目4.从 Kafka 读取数据2创建bean项目二.需求实现每天每地区热门广告 Top3实现一.准备数据1.数据生成方式使用代码的方式持续的生成数据, 然后写入到 kafka 中.然后Structured Streaming 负责从 kafka 消费数据, 并对数据根据需求进行分析.2.数据生成模块模拟出来的数据格式:时间戳,地区,城市,用户 id,广告 id1566035129449,

2020-09-10 19:51:26 1158 1

原创 HTTP状态码(200,404,500)

200状态码:表示请求已成功404状态码:请求失败(地址没找到，客户端把地址写错了)500状态码:服务器问题

2020-09-09 22:26:48 221

原创 Spark Streaming快速入门系列(5) | foreachRDD输出

1

2020-09-09 20:47:58 353

原创 scala中使用Iterator的区别(size和isEmpty)

size和(! isEmpty和nonEmpty是一样的) sizeobject Test { def main(args: Array[String]): Unit = { val it = Iterator(1, 2, 3) if (it.size>0){ println(it.toList) println(it.toList) } } }结果 nonEmptyobject Test { def main(a

2020-09-08 15:38:42 479

原创 Idea无法打开问题

问题解决在D:\idea\IntelliJ IDEA 2019.3.3\bin，找到idea.bat(可能你打不开)，右键点编辑，在最后输入pause点击运行idea.bat，就可以停止这个窗口不会闪退复制一份jetbrains-agent.jar文件到上面的路径，再次启动，启动成功！...

2020-09-08 14:24:13 1311

原创 WARN Error while fetching metadata with correlation id 14 : {first1602=INVALID_REPLICATION_FACTOR} (

[2020-09-07 17:02:38,771] WARN Error while fetching metadata with correlation id 14 : {first160.=INVALID_REPLICATION_FACTOR} (org.apache.kafka.clients.NetworkClient)

2020-09-07 17:51:54 2824 1

原创 Spark Streaming快速入门系列(4) | 无状态和有状态操作

目录一.无状态转换操作二.有状态转换操作updateStateByKey一.无状态转换操作官网http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#transformations-on-dstreams transform 原语允许 DStream上执行任意的RDD-to-RDD函数。可以用来执行一些 RDD 操作, 即使这些操作并没有在 SparkStreaming 中暴露出来.该函数每一批次调度一次。其

2020-09-06 14:52:39 447

原创 Spark Streaming快速入门系列(3) | Kafka 数据源

目录一.Kafka选型二.kafka和streaming理论指导三.从kafka消费数据1三.从kafka消费数据2一.Kafka选型http://spark.apache.org/docs/2.1.1/streaming-programming-guide.htmlhttp://spark.apache.org/docs/2.1.1/streaming-kafka-integration.html二.kafka和streaming理论指导http://spark.apache.org/doc

2020-09-05 19:58:04 505

原创 Spark Streaming快速入门系列(2) | RDD队列+自定义数据源

目录一.RDD队列二.自定义数据源一.RDD队列 1.用法及说明测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理。 2.案例实操需求：循环创建几个 RDD，将 RDD 放入队列。通过 Spark Streaming创建 Dstream，计算 WordCount 3.代码实现import org.apache.spark.SparkConfimport org.apache

2020-09-05 14:09:24 446

原创 WARN Connection to node -1 could not be established. Broker may not be available. (org.apache.kafka

WARN Connection to node -1 could not be established. Broker may not be available. (org.apache.kafka.clients.NetworkClient)查看原因是：kafka掉了

2020-09-04 16:25:22 942 1

原创 Spark Streaming快速入门系列(2) | wordcount案例

目录wordcount 案例wordcount 案例解析wordcount 案例 1.需求使用 netcat 工具向 9999 端口不断的发送数据，通过 Spark Streaming 读取端口数据并统计不同单词出现的次数 2.添加依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId&g

2020-09-03 21:48:34 200

原创 Spark Streaming快速入门系列(1) | Spark Streaming概述

目录一.Spark Streaming是什么二.Spark Streaming特点三.SparkStreaming 架构一.Spark Streaming是什么 Spark Streaming 是 Spark 核心 API 的扩展, 用于构建弹性, 高吞吐量, 容错的在线数据流的流式处理程序. 总之一句话: Spark Streaming 用于流式数据的处理数据可以来源于多种数据源: Kafka, Flume, Kinesis, 或者 TCP 套接字. 接收到的数据可以使用 Spark 的负责元语

2020-09-03 21:28:56 168

原创 SparkSql 项目实战 | 各区域热门商品Top3

数据源链接：https://pan.baidu.com/s/1lUbGmA10yOgUL4Rz2KAGmw 提取码：yh57源码在github：https://github.com/lidonglin-bit/Spark-Sql目录一.数据准备二.各区域热门商品 Top3需求简介思路分析具体实现提前准备一.数据准备我们这次 Spark-sql 操作中所有的数据均来自 Hive.首先在 Hive 中创建表, 并导入数据.一共有 3 张表: 1 张用户行为表, 1 张城市表, 1 张产品表C

2020-09-02 16:54:51 2476

空空如也

空空如也