大数据初识
文章平均质量分 68
大数据平台spark学习之路
宋老板的笔记
我是北京邮电大学的小学生
展开
-
Ubuntu搭建 Spark、Hive、Hadoop+yarn
Ubuntu搭建 Spark、Hive、Hadoop+yarn操作系统:Ubuntu 16.04.12虚拟机:VMware® Workstation 16 Pro 16.0.0JDK:1.8.0_282Hadoop:hadoop-2.7.5 https://archive.apache.org/dist/hadoop/common/Spark:spark-2.4.7-bin-hadoop2.7 http://spark.apache.org/downloads.html...原创 2021-03-26 22:34:24 · 1269 阅读 · 0 评论 -
大数据Kafka入门
Kafka是一个分布式基于发布/订阅模式的消息队列,Message Queue,用于大数据实时处理领域。Spark和Kafka是高度相关的。一、Kafka是采用消息队列的异步处理。消息队列优点:1.解耦,只需有确保接口约束,可以单独的扩展两边的处理过程2.可恢复性,系统的某一部分损坏不会影响整个系统3.缓冲,解决生产大于消费的的速度,(解决速度不一致问题)4.灵活性,峰值处理能力,可以动态的调整处理的硬件支持,减少浪费。二、消息队列的两种模式1.点对点模式消费者主动从生.原创 2021-04-09 14:51:04 · 584 阅读 · 0 评论 -
大数据zookeeper连接hadoop
markmarkmarkmarkmarkmarkmark原创 2021-04-09 16:45:36 · 116 阅读 · 0 评论 -
解决Hadoop livenode 0/1 livenode数量为0或1的情况
经过一些配置文件修改或者重新构建slave中hadoop工程后会导致一些livenode挂掉,导致livenode数量异常多半是因为hadoop多次经过format namenode而导致结点无法启动了,解决方案:0.先运行stop-all.sh脚本关掉hadoop1.删掉所有机器上hadoop文件夹中core-site.xml和和hdfs-site.xml中写到的在集群上的文件夹2.master节点上重新格式化 hadoop namenode -format...原创 2021-04-09 17:43:53 · 599 阅读 · 0 评论 -
Zookeeper 学习笔记 -解决zookeeper端口占用8080问题
致谢:https://www.bilibili.com/video/BV1PW411r7iP?from=search&seid=4125939798101478321一、Zookeeper是一个开源的分布式,为分布式提供协调应用的Apache项目观察者模式设计的分布式管理框架:负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦数据状态发生变化,Zookeeper负责通知注册了的接收者。ZK=文件系统+通知机制二、Zookeeper特点:1.zookeeper中一个原创 2021-04-12 17:06:02 · 1267 阅读 · 0 评论 -
windows写spark代码并打包交到集群运行
一.下载spark,hadoop,java,scala,idea1.spark,本地调试代码需要运行你写的scala,其中引用的所有spark库都需要spark的jar包,使用集群机器上的spark文件夹里面的jars即可,将集群上的spark拷贝下来。2.hadoop,同spark,但是需要下载winutils.exe在hadoop的bin目录下,否则会报Could not locate executable null\bin\winutils.exe in the Hadoop binaries原创 2021-04-13 12:16:12 · 603 阅读 · 0 评论 -
解决SparkStreaming 集群模式接收不到nc数据
一、写sparkstreaming代码:import org.apache.spark.{SparkConf, SparkContext}import org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.{Seconds, StreamingContext}object test { def main(args: Array[String]): Unit = { Logger.getLogger("or原创 2021-04-13 17:04:46 · 542 阅读 · 0 评论 -
解决maven打包scala代码找不到主类问题、maven打包带依赖
折腾了一晚上加一上午,总算解决了。解决:1.21/04/13 20:55:27 INFO scheduler.EventLoggingListener: Logging events to hdfs://master:8020/directory/local-1618372526737Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDes原创 2021-04-14 12:40:05 · 2517 阅读 · 1 评论 -
sparkstreaming连接kafka接收消息
一、写sparkstreaming代码打印接收需要调用steam.value()import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribeimport org.apache.spark.streaming.kafka0.原创 2021-04-14 14:40:34 · 2249 阅读 · 0 评论 -
HBase入门笔记 I
致谢:尚硅谷https://www.bilibili.com/video/BV1Y4411B7jy?from=search&seid=180541532113712925891.1Hbase定义HBase是一种分布式、可扩展(动态上下线)、支持海量数据的NoSQL(KEY-VALUE)数据库1.2数据模型逻辑上数据模型和关系型数据库类似,数据存在一张表中。底层物理逻辑是K-V键值对。与mysql区别:1.将列分成了列簇 (一行包含很多列簇)(宽表切分)2.行被切成了Region(原创 2021-04-14 22:17:52 · 2612 阅读 · 1 评论 -
HBASE搭建过程报错解决汇总
错误1:running matser, logging to /opt/hbase-1.6.0/bin/../logs/hbase-jamjar-matser-master.outError: Could not find or load main class matser原因&解决:hbase-env.sh 中需要export你的Java路径错误2:running master, logging to /opt/hbase-1.6.0/bin/../logs/hbase.原创 2021-04-15 16:49:53 · 6383 阅读 · 3 评论 -
解决Hbase连接hdfs失败java.net.ConnectException: Connection refused
昨天hbase安装好之后一直连接不到hdfs上,十分费解。错误如下:2021-04-15 07:04:32,844 WARN [master:16000.activeMasterManager] ipc.Client: Failed to connect to server: master/192.168.110.129:9000: try once and fail.java.net.ConnectException: Connection refused at sun.nio.ch....原创 2021-04-16 10:55:51 · 3751 阅读 · 0 评论 -
Hbase 入门笔记II :基本shell操作
Hbase的表可以看作是一种服务,需要客户端和他连接,所以有disable,enable 不可用和可用状态。致谢:http://c.biancheng.net/view/3587.html基础操作1. 查询服务器状态status2. 查询版本号versionDDL 操作:数据定义语言(Data Defination Language,DDL)操作主要用来定义、修改和查询表的数据库模式。1. 创建一个表create 'studen','info1' 最少有一个列族 例如i..原创 2021-04-16 13:49:08 · 695 阅读 · 0 评论 -
sparkstreaming+kafka+Hbase 实现实时数据写入Hbase
安装kafka、sparkstreaming、hbase参考我之前写的文章基于maven hadoop 2.7.5 hive 1.3.2 spark 2.4.7代码:POM.XML<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc原创 2021-04-16 16:42:59 · 619 阅读 · 0 评论 -
Hive整合Hbase 解决map=100% reduce=0%的问题
搭建过程致谢:https://www.cnblogs.com/yfb918/p/10882323.htmlhttps://blog.csdn.net/dajiangtai007/article/details/79696853我当时在从hive插入到hbase表的时候,一直卡在map=100% reduce=0%查询日志找到原因:2021-04-17 06:18:12,884 ERROR [main] org.apache.hadoop.hbase.client.AsyncPr.原创 2021-04-17 21:35:25 · 3668 阅读 · 0 评论 -
安装flume并整合到kafka、sparkstreaming
一、安装后修改flume-env.sh 加入JAVA_HOME我的版本是flume-1.8.0二、以spooldir方式启动,写kafka_spool.confsource、channel、sink概念:Client:Client生产数据,运行在一个独立的线程。 Event: 一个数据单元,消息头和消息体组成。(Events可以是日志记录、 avro 对象等。) Flow: Event从源点到达目的点的迁移的抽象。 Agent: 一个独立的Flume进程,包含组件Source原创 2021-04-20 14:00:23 · 146 阅读 · 0 评论 -
sqoop Communications link failure、Connection refused解决
这两天在准备sqoop,按照各种教程先后使用了sqoop2 sqoop、又重装了两次mysql,都一直报错,现已解决,记录一下。The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server. at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnec...原创 2021-04-23 09:45:50 · 1499 阅读 · 1 评论