
Spark
其实我是真性情
每天早上起来,我都会看看福布斯榜上有没有自己的名字,如果没有我就去上班!!!
-
原创 Kafka+SparkStreaming解析Json数据并插入Hbase,包含部分业务逻辑
以下代码是在学习Spark时候自己写的例子,还不成熟,仅供记录和参考下边直接上代码,我在我觉得有用的位置加了比较详细的注解import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import org.apache.hadoop.hbase.client.P...2018-03-01 09:38:017790
1
-
原创 Python & Spark学习笔记系列 【第二章】例子:单词统计+文件存储
一般Spark上来好像都是单词统计,这里我也写一个,之后再带上点其他的函数,Spark和Python语法是真的难理解,这里我把我的理解都写在程序代码注解上了,直接上代码from pyspark import SparkContext, SparkConfimport os# 没有这句会报错os.environ['JAVA_HOME'] = 'D:\Java\jdk1.8.0_92'...2019-02-22 10:14:06239
1
-
原创 Python & Spark学习笔记系列---目录
作为一个Java程序员,到目前为基本不具备Python与Spark的经验。接下来会按学习步骤写下所有Python与Spark学习中遇到的坑。为什么选Python而不是Scala和Java,这里的原因是,Java的SparkAPI写法特别繁琐不好理解,Scala本身也没有经验。但是大数据分析后可能会继续学习机器学习人工智能相关的东西,现在最火的基本就是Python,因此学习Python,...2019-02-14 10:44:03182
0
-
原创 Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装
Python语言怎么安装这里就不写了,网上有好多,IDEA安装是我按的Python插件如下图:安装Python语言环境和插件以后,还要安装pyspark类库,因为默认Python是不带这些类库的。这里安装遇到一个小坑,简单说下。如果网络没问题的话可以直接cmd进入命令行,时候输入命令pip install pyspark,就可以安装了。但是默认是pyspark的latest版本...2019-02-14 11:22:471277
0
-
原创 Python & Spark学习笔记系列 【第三章】例子:Python+Spark+Hbase
这里我的原始数据在Hbase里,以下会介绍两种方式可以通过Spark达到操作Hbase的效果。第一种:Spark直连HBase代码如下,但是这里我遇到了一个问题,就是下边代码中使用到的org.apache.hadoop.hbase.io.ImmutableBytesWritable,我使用IDEA本地运行提示找不到这个类,报错是:java.lang.ClassNotFoundExcep...2019-03-04 10:00:55541
3