碣石观海的博客

幸甚至哉,歌以咏志

Java中32位无符号数的取法

场景描述: Java 中基本类型都是有符号数值,如果接收到了 C/C++ 处理的无符号数值字节流,将出现转码错误。 解决方式: 使用 long 型的 64 位十六进制数 0xFFFFFFFFL,对取得的 32 位(4字节)的整型数值,做按位与(&)操作, 并以 lon...

2019-08-05 22:05:20

阅读数 24

评论数 0

SBT安装配置

1. 【Windows系统】下载最新安装包:sbt-1.2.8.msi,直接安装即可。 2. 配置仓库位置(默认为:~/.ivy2,"~" 为用户目录,如:C:\Users\zhangsan\.ivy2) 创建自定义仓库位置:D:/myRepository/sbt-rep...

2019-07-20 16:49:58

阅读数 69

评论数 0

《Spark用户评论监控实时报警系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第10章 监控报警系统实战 原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/mast...

2019-07-16 22:07:15

阅读数 24

评论数 0

中文字符用java.lang.String转码的小结(Java/Scala)

先给出最保险的转码操作,既无视平台编码,也无视字符编码: /** 保证接收到的字符串转为 UTF-8 格式 * 以 UTF-8 格式编码,再以 UTF-8 格式解码 */ val strUTF8 = new String(strGBK.getBytes("UTF-8&quo...

2019-07-10 18:45:17

阅读数 39

评论数 0

Spark作业计算结点并发运行验证

一、双核 CPU 的情况 验证方式: | 在作业主程序中的 rdd.foreachPartition()中加入如下代码: | 使当前线程睡眠1000ms,前后都打印当前线程信息 | 数据自行准备,大量即可 rdd.foreachPartition(partition =&g...

2019-07-06 16:47:42

阅读数 27

评论数 0

《Spark用户行为统计系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第9章 用户行为统计系统 原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/maste...

2019-07-05 23:57:24

阅读数 79

评论数 0

《Spark实时词频统计处理系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第8章 实时词频统计处理系统实战 原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/m...

2019-06-28 23:52:06

阅读数 72

评论数 0

MySQL中 insert into ... on duplicate key update ... values() 的使用笔记

**说明: 1. on duplicate key update 含义: 1)如果在INSERT语句末尾指定了 on duplicate key update, 并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值, 则在出现重复值的行执行UPD...

2019-06-26 19:43:10

阅读数 86

评论数 0

Spark Streaming日志分析

一、环境 开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark (Streaming & SQL) 2.4.3 ...

2019-06-23 00:23:08

阅读数 56

评论数 0

Redis安装及Jedis使用笔记

一、部署 单机模式(standalone)部署 1. Linux下安装gcc,(用于编译c文件),root用户执行 $ yum install gcc 2. 在/opt下安装redis $ cd /opt $ wget http://download.redis.io/releas...

2019-06-21 17:41:37

阅读数 32

评论数 0

Spark Streaming输出至HBase

一、环境 开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 HBase 1.2.9 作业运行环境: ...

2019-06-20 22:33:58

阅读数 151

评论数 0

HBase相关概念笔记

1. HBase多角度描述: 1)HBase是一种数据库:Hadoop数据库、无模式(schema)数据库; 2)描述为:稀疏的、分布式的、持久化的、多维有序映射; 3)基于行键(rowkey)、列键(column key)和时间戳(timestamp)建立索引; 4)一种键值存储...

2019-06-20 21:57:41

阅读数 25

评论数 0

Spark Streaming输出至MySQL

一、环境 开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 MySQL 5.1.47 MySQL ...

2019-06-18 21:17:18

阅读数 57

评论数 0

Spark Streaming输出至Kafka

1. 由Spark Streaming 向Kafka写数据,没有现成的官方接口,需要利用Kafka提供的底层接口。 2. 第一种写法,如下,会报错: nameAddrPhoneStream.foreachRDD(rdd => { //在Driver中执行 //初始化生...

2019-06-17 17:55:21

阅读数 87

评论数 0

【转】8种常见SQL错误用法

【文章转载自】:https://mp.weixin.qq.com/s/CvJQrdsCO1KlJAjSpy1Ibw 1、LIMIT 语句 分页查询是最常用的场景之一,但也通常也是最容易出问题的地方。比如对于下面简单的语句,一般 DBA 想到的办法是在 type, name, create_ti...

2019-06-14 20:07:36

阅读数 22

评论数 0

Spark Streaming分析Kafka数据

一、环境 开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 spark-streaming-kafka-0...

2019-06-13 15:04:28

阅读数 60

评论数 0

Kafka部署及相关概念笔记

一、部署 部署Kafka前需先部署Zookeeper,上篇博文:ZooKeeper部署 两台虚拟机(CentOS Linux 7): 192.168.190.200 master 192.168.190.201 slave1 所有节点都执行(hadoop用户) 1. 下载 ...

2019-06-12 00:14:42

阅读数 49

评论数 0

ZooKeeper部署及相关概念笔记

一、部署 两台虚拟机(CentOS Linux 7): 192.168.190.200 master 192.168.190.201 slave1 创建两个zookeeper服务,最好是奇数个节点,原因: 3个节点和4个节点时,允许节点宕机数目都为1个(需保证集群...

2019-06-11 17:16:42

阅读数 41

评论数 0

Spark Streaming之流式黑名单词汇统计(广播变量、累加器实现)

一、案例介绍 1. 在上篇博文 Socket数据源流式词频统计 的基础上,使用广播变量和累加器,实现对输入数据进行黑名单统计。 2. 使用 wordCounts.foreachRDD() 对流数据中黑名单词汇统计,并输出至控制台: 1)方法定义:def foreachRDD(foreachF...

2019-06-09 18:45:14

阅读数 48

评论数 0

书籍分享

链接:https://pan.baidu.com/s/1JKmcgpyBBcrvhT7h8ZK3Pw 提取码:pzqa

2019-06-08 11:51:03

阅读数 41

评论数 0

提示
确定要删除当前文章?
取消 删除