自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shengpli′s blog

专注JAVA和大数据

  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

转载 Spark学习08——RDD、DataFrame 和 Dataset

弹性分布式数据集(Resilient Distributed Dataset,RDD)从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说,一个 RDD 就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层 API 进行并行处理。在什么情况下使用 RDD?下面是使用 RDD 的场景和常见案例:你希望可以对你的数据集进行最...

2019-09-19 14:18:12 203

原创 Spark学习07——创建DataFrame的方法

一、简介基于Row的DateSet就是DataFrame,即DataFrame是DateSet的一个子集,DataFrame只是DateSet的叫法二、创建方法1. 使用toDF函数创建DataFrameobject CreateDataFrameFun { def main(args: Array[String]): Unit = { val spark = SparkSes...

2019-09-19 11:35:43 168

原创 Spark学习06——键值对RDD行动算子

所有键值对RDD行动算子如下:collectAsMap、countByKey、fold、lookup、saveAsSequenceFile当然键值对RDD可以使用所有RDD行动算子,介绍详见:https://blog.csdn.net/qq_23146763/article/details/101013861具体解释和例子1. collectAsMap将结果以映射表的形式返回,以便查询...

2019-09-19 11:25:13 138

原创 Spark学习05——键值对RDD转换算子

所有键值对RDD转换算子如下:mapValues、flatMapValues、sortByKey、combineByKey、foldByKey、groupByKey、reduceByKey、aggregateByKey、cogroup、join、leftOuterJoin、rightOuterJoin当然键值对RDD可以使用所有RDD转换算子,介绍详见:https://blog.csdn.ne...

2019-09-19 11:14:27 317

原创 Spark学习04——RDD行动算子

所有RDD行动算子如下:aggregate、collect、count、first、foreach、reduce、take、takeOrdered、takeSample、saveAsObjectFile、saveAsTextFile具体解释和例子1. aggregate概念1.将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb...

2019-09-19 10:58:20 463

原创 Spark学习03——RDD转换算子

所有RDD转换算子如下:map、faltmap、mapPartitions、mapPartitionsWithIndex、filter、sample、union、intersection、distinct、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions、glom、randomSplit具体解释和例子...

2019-09-18 16:51:10 388

原创 Spark学习02——创建DStream的方法

Spark Streaming提供两类内置流媒体源。基本来源:StreamingContext API中直接提供的源。示例:文件系统和套接字连接。高级资源:Kafka,Flume,Kinesis等资源可通过额外的实用程序类获得。基本来源如下,高级来源可参考官网例子:https://github.com/apache/spark/blob/master/examples/src/main/s...

2019-09-18 16:29:49 419

原创 Spark学习01——创建RDD的所有方法

方式一、从内存中创建1.makeRDD val rdd = sc.parallelize(List("zhangsan", "lisi", "wangwu"))2.parallelize val rdd2 = sc.makeRDD(List("zhangsan", "lisi", "wangwu"))区别:makeRDD函数有两种实现,第一种实现其实完全和parallelize一致...

2019-09-18 15:39:16 293

原创 Spark Sql用户权限异常记录

使用SparkSql存Hive数据报错如下19/09/11 14:53:10 ERROR metadata.Hive: MetaException(message:User appuser does not have privileges for ALTERTABLE_ADDPARTS) at org.apache.hadoop.hive.metastore.api.ThriftHiveMet...

2019-09-12 10:25:16 2120

转载 Kudu异常总结

1、impala不支持kudu表的关键字:PARTITIONED - LOCATION - ROWFORMAT(官方链接:Impala Keywords Not Supported for Kudu Tables),例如执行如下语句会报错:CREATE TABLE my_first_table2( id BIGINT, name STRING, PRIMARY KEY(id))...

2019-09-06 16:15:14 1587

原创 Hive基于Hbase的外部表使用

官网:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration作用:Hive直接使用Hbase的数据,不过hbase一般不适合分析数据,一般使用外部表将hbase数据导入其它hive表,用于数据分析步骤一、下载依赖jar从https://mvnrepository.com/artifact/org.apache....

2019-09-04 15:52:38 751

原创 Java日志框架使用注意点

一、应用中不可直接使用日志系统(Log4j、Logback)中的API,而应依赖使用日志框架SLF4J中的API,使用门面模式的日志框架,有利于维护和各个类的日志处理方式统一。import org.slf4j.Logger;import org.slf4j.LoggerFactory;private static final Logger logger = LoggerFactory.getLo

2019-09-04 15:10:11 167

转载 深究|Elasticsearch单字段支持的最大字符数?

转自:https://blog.csdn.net/laoyang360/article/details/78207980在业务系统中,遇到过两个问题:问题1:设置为keyword类型的字段,插入很长的大段内容后,报字符超出异常,无法插入。问题2:检索超过ignore_above设定长度的字段后,无法返回结果。思考:Elasticsearch单字段支持的最大字符数?设置ignore_abo...

2019-09-04 14:59:50 392

zabbix-2.0.3.tar.gz

系统监控软件zabbix-2.0.3

2016-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除