Hadoop
大数据相关及其周边
叫我阿呆就好了
一起学习,共同进步,计算机领域知识分享
展开
-
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession
报错信息Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession$ at spark.day1.AA$.main(no2.scala:11) at spark.day1.AA.main(no2.scala)Caused by: java.lang.ClassN...原创 2019-11-25 17:01:30 · 1814 阅读 · 0 评论 -
Scala求平均值
分组求平均值sc.makeRDD(Array(1,2,2,3,3,3),2).map(x=>(x,1)).map(a => (a._1, (a._2, 1))) .reduceByKey((a,b) => (a._1+b._1,a._2+b._2)) .map(t => (t._1,t._2._1/t._2._2))求一组数的平均值val rdd=A...原创 2019-11-19 22:26:42 · 8358 阅读 · 1 评论 -
hive插入分区报错SemanticException Partition spec contains non-partition columns
$HIVE_HOME/bin/hive -e "load data local inpath '$path/$filename.txt' overwrite into table bigtrouble.accountregister partition (year='$var1',month='$var2');"hive> create table stud01(id str...原创 2019-11-01 10:37:27 · 16939 阅读 · 1 评论 -
使用Flume监控文件并导入到HIVE表中
首先因为Hive的储存是基于HDFS的,所以目标等同于,flume监控文件并上传HDFS上Hive建表create table test(name String,gender String)row format delimited fields terminated by ',';Flume配置文件如下监控文件 /usr/local/hive.log上传路径hdfs://...原创 2019-12-09 15:49:45 · 1262 阅读 · 0 评论 -
Hive去重统计
select count(distinct AccountID) from CharacterLogin where day="27" and month="10";原创 2019-11-01 22:01:09 · 2741 阅读 · 0 评论 -
使用IDEA查询HIVE数据,输出男女生人数及姓名
接上篇想要在输出男女生人数的基础上,输出姓名,需自定义聚合函数AggrNameUDFimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spar...原创 2019-12-09 14:41:09 · 1115 阅读 · 0 评论 -
使用IDEA查询HIVE数据,输出男女生人数
结构hive-site.xml文件需修改两个点1、mysql默认连接库名称(在hive安装目录中的conf目录下的hive-site.xml文件,自行查阅)2、用户名及密码<?xml version="1.0" encoding="UTF-8" ?><configuration> <property> &...原创 2019-12-09 14:37:46 · 1283 阅读 · 0 评论 -
Linux下Hive的安装过程
Hive的安装过程资源下载安装 下载地址1、将apache-hive-0.14.0-bin.tar.gz上传到/usr/local下2、执行tar -zxvf apache-hive-0.14.0-bin.tar.gz 解压缩3、执行mv apache-hive-0.14.0-bin hive重命名;配置环境变量1、备份 在hive文件下的confi...原创 2019-10-30 20:27:23 · 985 阅读 · 0 评论 -
Hive分区+根据分区查询
分区通过partition by(字段名 字段类型) - 分区最后会形成一个目录。分区的字段,不在源数据中出现,但是表的一部分创建一个分区表hive> create table stud01( id string, name string, age int )partitioned by (grade string)ro......原创 2019-11-01 09:23:23 · 23261 阅读 · 1 评论 -
MapReduce详解
第1章 MapReduce入门1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2MapReduce优缺点1.2.1 优点1.MapReduce易于编......原创 2019-10-30 22:48:09 · 13623 阅读 · 3 评论 -
kafka概念扫盲
一、kafka概述1.1、定义Kakfa是一个分布式的基于发布/订阅模式的消息队列(message queue),主要应用于大数据的实时处理领域1.2、消息队列1.2.1、传统的消息队列&新式的消息队列的模式上面是传统的消息队列,比如一个用户要注册信息,当用户信息写入数据库后,后面还有一些其他流程,比如发送短信,则需要等这些流程处理完成后,在返回给...原创 2020-02-17 13:41:48 · 364 阅读 · 0 评论 -
zookeeper集群搭建之NoRouteToHostException: 没有到主机的路由 (Host unreachable)
查看日志,没有找到主机路由心理活动1、hosts文件缺少映射或zoo.cfg配置错误2、防火墙没关检查各节点之间是否互通,互ping之后发现皆互通,证明两台机器之间接口互通查看防火墙状态,果然没有关闭临时和永久关闭防火墙临时:不重启立即关闭,永久:重启后永久关闭关闭完之后,再次尝试,问题完美解决......原创 2020-01-04 20:51:45 · 9407 阅读 · 2 评论 -
Error when sending message to topic wyh-elk-kafka-topic with key: null
在kafka中向topic中发送消息报错:[root@localhostkafka_2.12-2.1.0]#bin/kafka-console-producer.sh--broker-list192.168.184.128:2181--topicwyh-elk-kafka-topic>wyh[2019-03-1321:21:06,457]ERRORErrorwh...原创 2019-12-12 16:31:24 · 652 阅读 · 0 评论 -
Kafka写生产消费者实例时,生产者正常,但消费者无法消费的问题
解决:把所有节点的kafka都启起来,问题解决原创 2019-12-12 14:53:39 · 1386 阅读 · 0 评论 -
使用Sqoop将HIVE中的数据导入Mysql
hive中的数据:mysql中的表:安装sqoop略里面有详细步骤:然后只需一条命令sqoop export --connect jdbc:mysql://henu1:3306/gamedata --username root --password 123 --table n_days_stat --num-mappers 1 --export-dir /user/...原创 2019-12-09 19:34:55 · 545 阅读 · 0 评论 -
sqoop从hive导出到mysql报错 ERROR mapreduce.ExportJobBase: Export job failed!
1,错误日志关键如下19/05/17 11:48:15 INFO mapreduce.Job: Running job: job_1558105459102_000719/05/17 11:48:42 INFO mapreduce.Job: Job job_1558105459102_0007 running in uber mode : false19/05/17 11:48:42 I...原创 2019-12-09 19:27:19 · 2426 阅读 · 0 评论 -
Sqoop报警告hcatalog does not exist!...accumulo does not exist!解决方案
hdfs dfsadmin -safemode get查看安全模式状态hdfs dfsadmin -safemode enter 进入安全模式状态hdfs dfsadmin -safemode leave 离开安全模式执行Sqoop中import命令后报错Warning: /opt/module/sqoop/bin/../../hcatalog does not...原创 2019-12-09 19:26:05 · 1393 阅读 · 0 评论 -
Flume监控文件并将数据输入至Kafka
Flume配置文件a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = execa1.sources.r1.bind = tail -F /usr/local/hive.loga1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSinka1.si...原创 2019-12-09 16:01:56 · 831 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战笔记——使用KafkaSInk将Flume收集到的数据输出到Kafka
Flume配置文件a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = avroa1.sources.r1.bind = hadoopa1.sources.r1.port = 44444a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSinka...原创 2019-12-03 19:20:24 · 219 阅读 · 0 评论 -
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation
Flume启动时,堵塞,重启虚拟机无效,折腾了三个小时最后重启电脑解决,原因未知原创 2019-12-03 19:15:37 · 7755 阅读 · 2 评论 -
Spark Streaming实时流处理项目实战笔记——实战之黑名单过滤
思路源代码窗口函数代码实现object Black extends App { import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} val sparkConf = new SparkCon...原创 2019-11-30 15:38:53 · 785 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战笔记——将统计结果写入到MySQL数据库中
思路两种方式,一种可优化(foreachRDD后,直接创建连接Mysql),一种在(foreachRDD后通过foreachPartition,通过分区获取)代码实现import java.sql.DriverManagerimport Spark.UpdateStateByKey.workdsimport Spark.WordCount.sscimpor...原创 2019-11-29 18:50:37 · 970 阅读 · 0 评论 -
Spark中foreachRDD的正确使用
常出现的使用误区:误区一:在driver上创建连接对象(比如网络连接或数据库连接) 如果在driver上创建连接对象,然后在RDD的算子函数内使用连接对象,那么就意味着需要将连接对象序列化后从driver传递到worker上。而连接对象(比如Connection对象)通常来说是不支持序列化的,此时通常会报序列化的异常(serialization errors)。因此连接对象必须在wor...原创 2019-11-29 17:18:15 · 2959 阅读 · 2 评论 -
Spark中foreachRDD、foreachPartition和foreach解读
foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同,foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。在Spark 官网中,foreachRDD被划分到Output Op...原创 2019-11-29 17:15:02 · 918 阅读 · 0 评论 -
Spark Streaming实时流处理项目实战笔记——Kafka Consumer Java API编程
1、在控制台创建发送者kafka-console-producer.sh --broker-list hadoop2:9092 --topic zz>hello world2、消费者APIimport java.util.Arrays;import java.util.Properties;import org.apache.kafka.clients.consume...原创 2019-11-27 22:36:35 · 931 阅读 · 0 评论 -
ERROR Shutdown broker because all log dirs in /tmp/kafka-logs have failed
解决办法:删除kafka目录内容外即可,重要数据,删除前注意备份原创 2019-11-27 13:30:48 · 4522 阅读 · 0 评论 -
ERROR node.Application: A fatal error occurred while running
flume-ng agent --name a1 --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/flume.conf -Dflume.root.logger=INFO,console启动flume时出现这个错误,因为是没有指定flume的配置文件目录 --conf...原创 2019-11-26 15:38:28 · 5426 阅读 · 1 评论 -
HDFS详解
第1章 HDFS概述1.1 HDFS产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS概念HDFS(HadoopDistributedFileSystem),它是一个分布式文件管理......原创 2019-10-31 11:18:44 · 4539 阅读 · 0 评论