排序:
默认
按更新时间
按访问量

谈谈RDD、DataFrame、Dataset的区别和各自的优势

在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map...

2018-05-23 15:51:52

阅读数:2

评论数:0

完美解决 Spark:java.net.URISyntaxException: Relative path in absolute URI: file:D:/XXX/SparkFaultBench/s

windows下使用intellij 开发 spark mllib 程序 发现如下错误。var spark=SparkSession.builder().master("local").appName("test").getO...

2018-05-22 16:34:20

阅读数:2

评论数:0

Spark记录-spark报错Unable to load native-hadoop library for your platform

解决方案一:#cp $HADOOP_HOME/lib/native/libhadoop.so  $JAVA_HOME/jre/lib/amd64#源码编译snappy---./configure  make & make install#cp libsnappy.so $J...

2018-05-22 15:52:47

阅读数:1

评论数:0

spark Error initializing SparkContext System memory 466092032 must be at least 471859200.

ERROR SparkContext: Error initializing SparkContext.Java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.71...

2018-05-22 15:52:08

阅读数:1

评论数:0

Spark(1.6.1) Sql 编程指南+实战案例分析

Spark(1.6.1) Sql 编程指南+实战案例分析首先看看从官网学习后总结的一个思维导图   概述(Overview)Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。开始Spark SQLSpar...

2018-05-20 00:55:07

阅读数:13

评论数:0

JSONViewer Notepad++ plugin安装

(1)下载插件:http://pan.baidu.com/s/1c0An90c(2)找到 安装目录Plugin文件夹,拷贝进去,重新打开Notepad++,OK!

2018-05-19 15:49:06

阅读数:4

评论数:0

maven中pom.xml对fastjson的依赖

在项目中使用到json,由于数据的频繁转化,考虑到系统的性能使用了阿里巴巴封装的fastjson。项目的环境配置jdk1.7tomcat8maven3.39在pom中引入的依赖 <dependency> <groupId&a...

2018-05-19 15:48:19

阅读数:3

评论数:0

Pandas透视表和交叉表

参考:《利用Python进行数据分析》透视表pivot_table的参数交叉表crosstab总结透视表 透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上得分组建将数据分...

2018-05-17 20:39:08

阅读数:15

评论数:0

kafka 启动 报错cannot allocate memory,即内存不足

错误提示: Java Hotspot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c5330000, 986513408, 0) failed; error='Cannot allocate memory' (er...

2018-05-16 00:20:27

阅读数:10

评论数:0

hive查询数据导出到本地目录或hdfs的方法

 一、导出到本地文件系统   hive> insert overwrite local directory '/home/mydir/mydir' > select * from test; 二、导出到HDFS中hive> ...

2018-05-15 21:54:56

阅读数:28

评论数:0

zookeeper客户端命令详解

简介查阅了网上相关资料,介绍zookeeper客户端命令并不是非常全面,大多数都是简单介绍ls、get、set、delete、stat这几个简单命令的,下面我把help中的所有命令简单介绍一下以供参考。首先说明一下如何打开zk服务端和客户端,cd到zk安装目录下,运行bin/zkServer.sh...

2018-05-13 22:01:31

阅读数:8

评论数:0

spark三种连接join

本文主要介绍spark join相关操作。讲述spark连接相关的三个方法join,left-outer-join,right-outer-join,在这之前,我们用hiveSQL先跑出了结果以方便进行对比。我们以实例来进行说明。我的实现步骤记录如下。 1、数据准备2、HSQL描述3、Spark描...

2018-05-12 21:15:59

阅读数:83

评论数:0

Hadoop2.0集群、Hive工具、Zookeeper集群、Kafka集群、Spark集群、Hbase集群、Sqoop工具、Flume工具搭建总结(三)

七、Hbase集群-----------安装准备--------------------------------------首先,要有一个HDFS集群,并正常运行; regionserver应该跟hdfs中的datanode在一起其次,还需要一个zookeeper集群,并正常运行然后,安装HBAS...

2018-05-11 23:34:07

阅读数:10

评论数:0

Hadoop2.0集群、Hive工具、Zookeeper集群、Kafka集群、Spark集群、Hbase集群、Sqoop工具、Flume工具搭建总结(二)

四、Zookeeper集群搭建------------- 安装ZooKeeper包-----------------------------1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。2、对zookeeper-3.4.5.tar...

2018-05-11 23:01:09

阅读数:19

评论数:0

Hadoop2.0集群、Hive工具、Zookeeper集群、Spark集群、Kafka集群、Hbase集群、Sqoop工具、Flume工具搭建总结(一)

1、使用的Virtual Box安装包,一步一步安装即可。2、之所以选用Virtual Box是因为它比VMWare更加稳定。使用VMWare运行hadoop集群或者spark集群时,有时会出现休眠后重启时,某些进程莫名挂掉的问题。而Virtual Box没有这种情况。3、之所以选择Virtual...

2018-05-11 22:17:30

阅读数:25

评论数:0

Linux下的Java卸载与安装

本文所述的Linux系统实例为CentOS; 本文所述的Java是开发版,即JDK。一、卸载旧版本Java 升级之前最好卸载旧版本程序。首先检查原来是否为rpm方式安装:rpm -qa|grep gcj1如果此命令检索到java安装程序,可用命令卸载:rpm -e ...

2018-05-11 18:45:51

阅读数:13

评论数:0

IntelliJ IDEA构建基于maven的spark+hbase工程(scala语言)

摘要利用IDEA来编写基于maven的scala程序,主要功能用来支持从hbase中拉取数据供spark进行mapreduce运算。软件准备首先下载安装IntelliJ IDEA https://www.jetbrains.com/idea/download/#section=windows不需要...

2018-05-10 20:59:32

阅读数:5

评论数:0

xshell中的删除键映射

在进行Hbase学习时候,利用的是xshell客户端。需要把键进行映射:修改办法:文件-->打开--->属性-->终端 -->键盘 吧delete 和backspace序列改为 ASCII 127即可。...

2018-05-10 20:05:24

阅读数:3

评论数:0

beeline连接hive server遭遇MapRedTask (state=08S01,code=1)错误

采用beeline连接hive server是遭遇到如下错误:[java] view plain copy 5: jdbc:hive2://bluejoe0/default> select * from hive_triples where subject='&amp...

2018-05-09 10:12:11

阅读数:7

评论数:0

Spark Streaming

1.Storm 和 SparkStreaming区别Storm                     纯实时的流式处理,来一条数据就立即进行处理SparkStreaming微批处理,每次处理的都是一批非常小的数据Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度...

2018-05-02 22:48:14

阅读数:9

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭