自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Spark Streaming实时流处理项目实战笔记——实战之黑名单过滤

思路源代码窗口函数代码实现object Black extends App { import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} val sparkConf = new SparkCon...

2019-11-30 15:38:53 785

原创 Spark Streaming实时流处理项目实战笔记——将统计结果写入到MySQL数据库中

思路两种方式,一种可优化(foreachRDD后,直接创建连接Mysql),一种在(foreachRDD后通过foreachPartition,通过分区获取)代码实现import java.sql.DriverManagerimport Spark.UpdateStateByKey.workdsimport Spark.WordCount.sscimpor...

2019-11-29 18:50:37 969

原创 mysql查看表结构的几种方式

在我第N次忘记如何查看表结构后,在网上查了一下后,看到有好几种查看表结构的方式,总结一下。以student(sid,sname,birthday,sex)的查看为例。【方式一】:desc student;语法:desc 表名;---------------------用于查看表整体结构【方式二】:describe student;语法:describe 表名;----...

2019-11-29 18:46:40 1305

原创 Spark中foreachRDD的正确使用

常出现的使用误区:误区一:在driver上创建连接对象(比如网络连接或数据库连接)    如果在driver上创建连接对象,然后在RDD的算子函数内使用连接对象,那么就意味着需要将连接对象序列化后从driver传递到worker上。而连接对象(比如Connection对象)通常来说是不支持序列化的,此时通常会报序列化的异常(serialization errors)。因此连接对象必须在wor...

2019-11-29 17:18:15 2958 2

原创 Spark中foreachRDD、foreachPartition和foreach解读

foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同,foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。在Spark 官网中,foreachRDD被划分到Output Op...

2019-11-29 17:15:02 917

原创 Spark Streaming实时流处理项目实战笔记——Kafka Consumer Java API编程

1、在控制台创建发送者kafka-console-producer.sh --broker-list hadoop2:9092 --topic zz>hello world2、消费者APIimport java.util.Arrays;import java.util.Properties;import org.apache.kafka.clients.consume...

2019-11-27 22:36:35 931

原创 ERROR Shutdown broker because all log dirs in /tmp/kafka-logs have failed

解决办法:删除kafka目录内容外即可,重要数据,删除前注意备份

2019-11-27 13:30:48 4521

原创 ERROR node.Application: A fatal error occurred while running

flume-ng agent --name a1 --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/flume.conf -Dflume.root.logger=INFO,console启动flume时出现这个错误,因为是没有指定flume的配置文件目录 --conf...

2019-11-26 15:38:28 5416 1

原创 IDEA中Pom文件打包代码

<build> <finalName>top</finalName> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> ...

2019-11-25 17:19:24 1715

原创 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession

报错信息Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession$ at spark.day1.AA$.main(no2.scala:11) at spark.day1.AA.main(no2.scala)Caused by: java.lang.ClassN...

2019-11-25 17:01:30 1814

原创 JAVA 将毫秒值转换为日期时间

给定毫秒值1414381913000Lpublic class demo { public static void main(String[] args) { long milliSecond = 1414381913000L; Date date = new Date(); date.setTime(milliSecond); ...

2019-11-25 14:34:34 12127 4

原创 Scala求平均值

分组求平均值sc.makeRDD(Array(1,2,2,3,3,3),2).map(x=>(x,1)).map(a => (a._1, (a._2, 1))) .reduceByKey((a,b) => (a._1+b._1,a._2+b._2)) .map(t => (t._1,t._2._1/t._2._2))求一组数的平均值val rdd=A...

2019-11-19 22:26:42 8354 1

原创 计算机操作系统第三章处理机调度与死锁习题及答案

进程调度的因素引起进程调度的原因有:进程结束;时间片用完;被抢占;调用原语被阻塞;I/O请求某进程被唤醒后立即进入运行,我们就说这个系统采用的是抢占调度方法,对吗?为什么?不对,抢占调度方法定义:允许调度程序根据某种原则,将已分配给该进程的处理机,重新分配给另一进程,由题不能判断CPU是否处于空闲状态高级调度和低级调度的主要任务是什么?为什么引入中级调度?(1)......

2019-11-18 20:59:42 6044 4

原创 SpringBoot实现登录注册

话不多说,一个小小登录注册的案例向你展示SpringBoot的魅力1 设计数据库1.1表结构1.2属性id自增主键,name非空约束,唯一约束,password2 IDEA配置2.1 pom文件<dependency> <groupId>org.springframework.boot</groupId> &lt......

2019-11-06 16:06:31 34183 86

转载 报错 You need either to explicitly disable SSL by setting useSSL=false, or set useSSL=true and provide

mysql5.7版本报错:Sun Aug 05 21:18:18 CST 2018 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL...

2019-11-02 14:19:44 1664

转载 shell将命令执行的结果赋值给 变量

1.用` `,(尖号)把命令括起来,然后赋值给变量dir=`pwd`2.采用 变量=$(pwd)dir=$(pwd)

2019-11-01 22:50:42 5343

原创 Hive去重统计

select count(distinct AccountID) from CharacterLogin where day="27" and month="10";

2019-11-01 22:01:09 2735

原创 hive清空表删除分区

Truncate只能删除管理表,不能删除外部表中数据hive (default)> truncate table student;alter table AccountRegister drop partition (create_date>='2014-10-1');

2019-11-01 10:38:21 6021

原创 hive插入分区报错SemanticException Partition spec contains non-partition columns

$HIVE_HOME/bin/hive -e "load data local inpath '$path/$filename.txt' overwrite into table bigtrouble.accountregister partition (year='$var1',month='$var2');"hive> create table stud01(id str...

2019-11-01 10:37:27 16911 1

转载 shell按分隔符截取字符串

1.#!/bin/bashstring="hello,shell,haha" array=(${string//,/ }) for var in ${array[@]}do echo $vardone 2.#!/bin/bashstring="hello,shell,haha"OLD_IFS="$IFS"IFS=","array=($string)IFS="$...

2019-11-01 09:24:30 11301

原创 Hive分区+根据分区查询

分区通过partition by(字段名 字段类型) - 分区最后会形成一个目录。分区的字段,不在源数据中出现,但是表的一部分创建一个分区表hive> create table stud01( id string, name string, age int )partitioned by (grade string)ro......

2019-11-01 09:23:23 23242 1

原创 shell命令执行hive脚本

path=`pwd`files=$(ls $path)for filename in $filesdo filename=${filename%.*} $HIVE_HOME/bin/hive -e "load data local inpath '$path' overwrite into table bigtrouble.accountregister partitio...

2019-11-01 09:21:15 1688

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除