大数据专栏
大数据 相关知识 以及平时的一些心得体会
兀坐晴窗独饮茶
我的个人博客 http://knightzz.cn/
展开
-
Hadoop学习笔记 - hdfs的读写流程分析
Hadoop - 对hdfs文件读写流程分析一. 读数据1.1 读数据流程分析图1.2 读数据步骤1.2.1 请求阶段HDFS客户端向NameNode请求读取 路径为/hdfs/data/a.txt的文件NameNode 根据请求路径查询该文件是否存在, 若存在返回其对应的元数据信息1.2.2 读取阶段HDFS客户端根据返回的元数据信息去DataNode请求读取对...原创 2020-02-17 22:05:04 · 219 阅读 · 0 评论 -
Docker 学习笔记 - Centos7 安装最新版Docker
一. 准备1.1 卸载旧版本yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ d...原创 2020-01-04 23:29:26 · 159 阅读 · 0 评论 -
Hadoop踩坑笔记 - NodeManager from sht-sgmhadoopdn-04 doesn't satisfy minimum allocations, Sendin
报错情况启动时 出现 Nodemanager 无法启动, 查看日志 发现报错如下 :org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from Reso...原创 2019-12-16 13:47:15 · 269 阅读 · 0 评论 -
Hadoop学习笔记(1) - Hadoop2.7环境搭建教程
一. 集群规划1.1 集群节点分配注意 : 可以根据自己电脑配置调整 , 如果配置比较低就少配置几台子节点主机名主机IPmaster192.168.100.100slave1192.168.100.101slave2192.168.100.102slave3192.168.100.10031.2 软件版本软件名称软件版本...原创 2019-12-10 14:05:43 · 491 阅读 · 0 评论 -
Java学习笔记 - 使用Java模拟生成直播弹幕日志案例
使用Java模拟生成直播弹幕日志案例 格式如下 IP,UID,Time,URL,Referrer(访问来源),status code(状态码)其中URL有多种,弹幕的日志格式为POST aa/pp HTTP 1.1GET dm/send?line=哈哈哈哈哈 HTTP 1.1原创 2019-12-01 20:13:55 · 553 阅读 · 0 评论 -
从零开始学习Spark - SparkRDD、SparkDStream与HBase交互
一. SparkRDD 与 HBase的交互1.1 依赖配置以及注意事项1.1.1 特别注意建议参考 2.3 添加数据 - put的使用里面的处理方法1.1.2 POM 文件<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>原创 2019-12-01 17:04:11 · 907 阅读 · 3 评论 -
Flink学习笔记(1) - Flink1.9 Standalone Cluster环境搭建
#### 介绍Standalone 类似于Spark的Standalone模式 使用自身的资源管理器, Flink 可以在很多种资源管理器上运行 比如 Yarn K8s 等#### 1.下载 Flink```shellwget http://mirror.bit.edu.cn/apache/flink/flink-1.9.1/flink-1.9.1-bin-scala_2.11.tgz```原创 2019-11-26 20:43:19 · 783 阅读 · 0 评论 -
Spark踩坑笔记(1) - Caused by: java.lang.ClassNotFoundException: org.apache.spark.streaming.dstream.DStre
报错描述今天在用SparkStreaming 消费kafka的数据时候报了这个错, 感觉很莫名其妙, 因为这个错误一般是找不到这个类的时候才会报, 但是我很肯定我这个类的jar报是引入了的, 然后猛然想起, 可能是我依赖范围设置的有问题, 然后赶紧查看了依赖范围果然将 provide 改为 Compile 即可这里总结下 maven的依赖范围, 给自己提个醒, 以后需要注意Scope ...原创 2019-11-26 16:42:53 · 960 阅读 · 0 评论 -
Kafka学习笔记(2) - Kafka 常用命令行操作总结
总结说明 ????因为学习kafka的过程中经常会用到一些命令, 但是有时候kafka我也不经常使用,命令就有可能忘记, 这里记录下来, 以后忘了可以再查, 这里需要说明的是因为我用的CDH版的 kafka, 所以版本比较低, 我用的是1.0 的版本, 这个版本好像是没法用bootstrap-server 的,这里记录说明下1. 创建 topic# 特别注意 --前面要空一格 不然识别不出来...原创 2019-11-26 14:02:52 · 296 阅读 · 0 评论 -
Kafka学习笔记(1) - CDH6.2 集群安装Kafka服务步骤以及问题解决方法
1. 修改配置 [重点!]进入CDH的安装包仓库 进入Kafka 的配置文件目录 修改 server.properties 配置文件 . 路径参考如下 :/opt/cloudera/parcels/KAFKA/etc/kafka/conf.dist修改其中的 broker.id 的配置,注意: 你需要使用的kafka所有节点都需要配置 !注意 : 每个节点的id不能一样 !2....原创 2019-11-25 19:00:14 · 4270 阅读 · 0 评论 -
Flume学习笔记 - Flume监控指定端口,指定文件, 指定目录总结
文章目录1.1 监控指定端口的数据流 :book:1.2 实时读取本地文件到HDFS1.3 实施监控指定目录下的多个文件1.1 监控指定端口的数据流 ????使用 Flume 监控节点 cm5 上的 8989 端口,将数据输出到控制台上配置 :创建配置文件# 配置Agent的sources,sinks,channels 别名a1.sources = r1a1.sinks = k1...原创 2019-11-25 13:46:09 · 1005 阅读 · 0 评论 -
[转载] - CDH集群配置、日志、jar包以及安装目录汇总
1. 总结在查找CDH 中hive的日志 看到一篇很不错的文章, 总结了 集群配置以及日志等安装目录的位置 这里转载过来方便自己查看转载出处 : CDH集群配置、日志、jar包以及安装目录汇总2. 关键目录2.1 开启应用目录:默认可以直接敲命令行/opt/cloudera/parcels/CDH/bin查询# lsavro-tools kite-da...转载 2019-11-23 15:12:55 · 856 阅读 · 0 评论 -
从零开始学习Saprk - 32种Saprk算子详解(完整版)
一.Transform类型算子1.1 Value 类型1.1.1 map 算子介绍 :返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 ,也就是说RDD中每个元素都会执行一次这个方法代码 : // 创建SparkConf 设置本地运行模式 val conf = new SparkConf() .setMaster("local[1]") .setAppName("MapOperator") // 创建SparkContext val原创 2019-11-17 18:43:31 · 784 阅读 · 1 评论 -
Scala 学习笔记 - 基础变量循环分支函数的使用
一.基础变量 for 、 While 循环 , 判断语句1.scala 基础运行机制如图 :当我们创建一个 Object 的 scala文件的时候 , 它就会生成两个 .class文件第一个 .class 文件第二个 .class 文件注意 : 当我们创建一个 Object 的scala文件时 , 则会创建一个 单例的 对象 MODULE$ 对象,当我们 使用main 方法时 ...原创 2019-06-04 21:09:41 · 201 阅读 · 0 评论 -
Java踩坑笔记 - IDEA 报错 .idea 的某个文件 “前言中不允许有内容”错误-分析以及解决办法
报错原因xml文件转化为UTF-8格式会有一个BOM头, 所以IDEA 的读取的时候就会报错解决办法注意 : 因为我的是 idea 的配置文件报错 ! 而且报错的 xml 文件太多了,所以我直接 把 .idea 文件夹删了, 然后重新导入的额, 这中方法要慎用!但是如果你不是我这个问题, 而是读取xml文件时候遇到问题用 notepad++ 打开, 然后转为 UTF-8 即可...原创 2019-11-08 16:16:56 · 3140 阅读 · 1 评论 -
Kylin学习笔记 - CDH6.2集群 kylin2.6.4 环境搭建
软件要求Hadoop: 2.7+Hive: 0.13 - 1.2.1+HBase: 1.1+Spark (可选) 2.1.1+Kafka (可选) 0.10.0+JDK: 1.7+OS: Linux only, CentOS 6.5+ or Ubuntu 16.0.4+开始安装1.下载安装包wget http://mirrors.tuna.tsinghua.edu.cn/apa...原创 2019-10-27 18:36:57 · 913 阅读 · 0 评论 -
【HBase】- HBase扫描表时报错 org.apache.hadoop.hbase.DoNotRetryIOException: hconnection-0x233fe9b6 closed
描述for (String attendUid : attendUids) { // 范围 uid_ => uid_************ => uid| // 范围的获取是根据unicode码来判断 uid_ 小于 所有 uid_* 而 | 的unicode码比 _ 大 所以大于所有的 uid_.... ...原创 2019-08-07 12:56:13 · 4245 阅读 · 0 评论 -
【HBase】- 使用Java读取HBase表中的数据报错 org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException
描述今天我使用 Java 连接HBase 读取数据时报错 , 报错信息如下其实报错信息已经很明显了 ,就是HBase表中不存在我读取的那个列族, 然后仔细检查了下, 发现是由于自己写列族名写错了 , 然后更改过来即可我读取的那两个表其实是没有info这个列族的 之前的表用到了,然后马虎,这里记下来 避免再次发生错误....原创 2019-08-07 11:14:51 · 4564 阅读 · 3 评论 -
【HBase】- Hive和HBase表的关联 ⭐️⭐️⭐️
Hive和HBase表的关联1. HBase 和 Hive 的对比Hive(1) 数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方便使用 HQL 去管理查询。(2) 用于数据分析、清洗Hive 适用于离线的数据分析和清洗,延迟较高。(3) 基于 HDFS、MapReduceHive 存储的数据依旧在 DataNode 上,...原创 2019-08-04 22:02:39 · 381 阅读 · 0 评论 -
【HBase】- 使用MapReduce对HBase数据进行操作案例 ⭐️⭐️⭐️
案例 一1. 需求从 Person 表中读取name列的数据 写入到 Person_mr2.代码Map 阶段package com.wangt.habse.mr01;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase...原创 2019-08-04 22:00:35 · 368 阅读 · 3 评论 -
HBase踩坑笔记 - 使用 MR 集成Hbase 报错 IllegalArgumentException: No columns to insert ⭐️⭐️⭐️⭐️
错误描述今天在 使用 MapReduce 将 Person 表中的 name 字段 的数据 写入到 Person_mr 表中 报错代码 如下 :Mapperpackage com.wangt.habse.mr01;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import or...原创 2019-08-04 16:17:04 · 952 阅读 · 1 评论 -
从零开始学习HBase - 一文详解HBase常用API
HBase常用API总结❤️ 使用的HBase版本为 1.311. pom.xml文件: <!-- 配置 Hbase 的依赖 --> <dependencies> <dependency> <groupId>org.apache.hbase</groupId> ...原创 2019-08-02 21:16:55 · 1659 阅读 · 0 评论 -
从零开始学习HBase - CDH下HBase和MapReduce的集成
CDH 下 HBase和MR的集成1.配置环境变量❤️ 注意 每台机器都要配置vim /etc/profile追加到profile文件尾部 :export HBASE_HOME=/opt/cloudera/parcels/CDH-5.14.4-1.cdh5.14.4.p0.3/lib/hbaseexport HADOOP_HOME=/opt/cloudera/parcels/CD...原创 2019-08-02 20:56:10 · 283 阅读 · 0 评论 -
【HBase】- HBase Shell 表和 命名空间相关命令
Hbase 基础命令1. 开启Hbase 命令行> 进入 hbase bin 目录 hbase shell2. 查看帮助命令help3. 查看当前数据库中有哪些表list4. 退出Hbase 命令行Ctr + C 5.补充Hbase 的删除操作是从前向后删除的, 必须使用 ctrl + 删除才是正常的删除表的相关操作命令1. 创建表create '...原创 2019-07-31 21:19:36 · 3502 阅读 · 0 评论 -
Spark学习笔记(3) - 关于Spark常用的transform算子的一些总结⭐️⭐️⭐️
RDD 常用 transform 算子原创 2019-07-28 12:54:02 · 445 阅读 · 0 评论 -
Spark学习笔记(1) - Spark运行模式 以及模块介绍 ⭐️⭐️⭐️
第一章 - Spark概述Read Me ⭐️原创 2019-07-28 12:50:50 · 250 阅读 · 0 评论 -
Spark学习笔记(2) - 关于SaprkRDD基本原理的个人理解 ⭐️⭐️⭐️
第二章 - SparkCore RDDRead Me原创 2019-07-28 12:50:22 · 166 阅读 · 0 评论 -
【Spark SQL】- RDD、DataFrame、Dataset三者之间相互转换 ⭐⭐⭐
1 . 转换方法DataFrame 、Dataset 转 RDDRDD 转 DataFrameRDD 转 DatasetDataset 转 DataFrameDataFrame 转 Dataset2. 代码案例原创 2019-06-07 21:50:25 · 390 阅读 · 0 评论 -
【Scala】 - 第三章 运算符 ⭐️⭐️⭐️
第三章 - 运算符Read Me原创 2019-07-13 16:58:47 · 498 阅读 · 0 评论 -
【Scala】 - 第二章 基本变量 ⭐️⭐️
第二章 - 基本变量Read Me原创 2019-07-12 22:03:49 · 262 阅读 · 0 评论 -
【Scala】 - 第一章 基本概述 ⭐️⭐️
第一章 - 基本概述why is Scala语言 ❓Spark—新一代内存级大数据计算框架,是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。Scala 是 Scalable Language 的简写,是一门多范式(范式/编程方式[面向对象/函数式编程])的编程语言联邦理工学院洛桑(EPFL)的原创 2019-07-12 12:38:32 · 404 阅读 · 0 评论 -
【Spark SQL】- 自定义结构的DataFrame和 Dataset
1.步骤分析读取的 people.txt 文件内容 Michael, 29 Andy, 30 Justin, 19 第一步 读取文件 创建RDD // 创建一个RDD JavaRDD<String> peopleRDD = spark.sparkContext() //...原创 2019-05-30 00:17:57 · 870 阅读 · 0 评论 -
【Spark SQL】- RDD DataFrame Dataset 三者的优缺点 , 三者之间的创建 , 以及相互转换
一.简单介绍1.RDDRDD 是一个懒执行(只有当遇到action算子时才会真正的开始执行)的不可变的的 可以支持 lambda 表达式 的并行数据集RDD 的最大优势就是简单 , 毕竟容易上手RDD 的 劣势在于 , 它是一个存在于 JVM 内存中的对象 , JVM 内存是计算机内存划分的一块空间 , 所以它受到 Gc (JVM 自己的垃圾处理器 , 用来回收一些不用的对象 , 但是 ...原创 2019-05-28 21:46:16 · 2713 阅读 · 0 评论 -
【Spark SQL】- 读取数据并进行一些简单的查询
1.测试数据文件名 : people.json内容 :{"name":"Michael", "age":12}{"name":"Andy", "age":30}{"name":"Justin", "age":19}{"name":"kafak", "age":19}这里我是在IDEA本地运行的 代码 所以Master我设置的是 Local2 .代码创建SaprkSessi...原创 2019-05-26 15:30:32 · 2126 阅读 · 0 评论 -
Spark踩坑笔记(3) - 使用 SparkSession 导入 import spark.implicits._ 报错
1. 报错今天干了一件很傻屌的事 , 当然也是知识面不足 , 导入 import spark.implicits._ 出现了问题我把 spark 当做了一个包 , 没想到它其实是一个 SparkSession的对象 ,注意上图 : SparkSession 对象名是 SparkSession , 不是 spark , 改成sparkSession 即可…import spark.imp...原创 2019-06-05 23:30:00 · 9152 阅读 · 5 评论 -
【完美解决】- 开启Spark-Shell时卡死 , 或者端口占用 的解决方法
报错信息错误原因 : 一般是错误的退出spark-shell 比如使用 Ctrl + C解决方法输入命令 : netstat -npl | grep 4040使用 kill -9 进程编号 关闭 占用端口输入 ps -ef | grep spark-shell使用 kill -9 进程编号 关闭 spark-shell的进程即可...原创 2019-06-02 23:25:10 · 3725 阅读 · 2 评论 -
【完美解决】- IDEA运行SparkSql代码 出现 java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException
1.报错java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at ja...原创 2019-05-26 08:31:00 · 9561 阅读 · 3 评论