2019年09月_lishengping_max

转载 Spark学习08——RDD、DataFrame 和 Dataset

弹性分布式数据集（Resilient Distributed Dataset，RDD）从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。在什么情况下使用 RDD？下面是使用 RDD 的场景和常见案例：你希望可以对你的数据集进行最...

2019-09-19 14:18:12 203

原创 Spark学习07——创建DataFrame的方法

一、简介基于Row的DateSet就是DataFrame，即DataFrame是DateSet的一个子集，DataFrame只是DateSet的叫法二、创建方法1. 使用toDF函数创建DataFrameobject CreateDataFrameFun { def main(args: Array[String]): Unit = { val spark = SparkSes...

2019-09-19 11:35:43 168

原创 Spark学习06——键值对RDD行动算子

所有键值对RDD行动算子如下：collectAsMap、countByKey、fold、lookup、saveAsSequenceFile当然键值对RDD可以使用所有RDD行动算子，介绍详见：https://blog.csdn.net/qq_23146763/article/details/101013861具体解释和例子1. collectAsMap将结果以映射表的形式返回，以便查询...

2019-09-19 11:25:13 138

所有键值对RDD转换算子如下：mapValues、flatMapValues、sortByKey、combineByKey、foldByKey、groupByKey、reduceByKey、aggregateByKey、cogroup、join、leftOuterJoin、rightOuterJoin当然键值对RDD可以使用所有RDD转换算子，介绍详见：https://blog.csdn.ne...

2019-09-19 11:14:27 317

原创 Spark学习04——RDD行动算子

所有RDD行动算子如下：aggregate、collect、count、first、foreach、reduce、take、takeOrdered、takeSample、saveAsObjectFile、saveAsTextFile具体解释和例子1. aggregate概念1.将每个分区里面的元素进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb...

2019-09-19 10:58:20 463

原创 Spark学习03——RDD转换算子

所有RDD转换算子如下：map、faltmap、mapPartitions、mapPartitionsWithIndex、filter、sample、union、intersection、distinct、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions、glom、randomSplit具体解释和例子...

2019-09-18 16:51:10 388

原创 Spark学习02——创建DStream的方法

Spark Streaming提供两类内置流媒体源。基本来源：StreamingContext API中直接提供的源。示例：文件系统和套接字连接。高级资源：Kafka，Flume，Kinesis等资源可通过额外的实用程序类获得。基本来源如下,高级来源可参考官网例子：https://github.com/apache/spark/blob/master/examples/src/main/s...

2019-09-18 16:29:49 419

原创 Spark学习01——创建RDD的所有方法

方式一、从内存中创建1.makeRDD val rdd = sc.parallelize(List("zhangsan", "lisi", "wangwu"))2.parallelize val rdd2 = sc.makeRDD(List("zhangsan", "lisi", "wangwu"))区别：makeRDD函数有两种实现，第一种实现其实完全和parallelize一致...

2019-09-18 15:39:16 293

原创 Spark Sql用户权限异常记录

使用SparkSql存Hive数据报错如下19/09/11 14:53:10 ERROR metadata.Hive: MetaException(message:User appuser does not have privileges for ALTERTABLE_ADDPARTS) at org.apache.hadoop.hive.metastore.api.ThriftHiveMet...

2019-09-12 10:25:16 2120

转载 Kudu异常总结

1、impala不支持kudu表的关键字：PARTITIONED - LOCATION - ROWFORMAT（官方链接：Impala Keywords Not Supported for Kudu Tables），例如执行如下语句会报错：CREATE TABLE my_first_table2( id BIGINT, name STRING, PRIMARY KEY(id))...

2019-09-06 16:15:14 1587

原创 Hive基于Hbase的外部表使用

官网:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration作用：Hive直接使用Hbase的数据,不过hbase一般不适合分析数据，一般使用外部表将hbase数据导入其它hive表，用于数据分析步骤一、下载依赖jar从https://mvnrepository.com/artifact/org.apache....

2019-09-04 15:52:38 751

原创 Java日志框架使用注意点

一、应用中不可直接使用日志系统（Log4j、Logback）中的API，而应依赖使用日志框架SLF4J中的API，使用门面模式的日志框架，有利于维护和各个类的日志处理方式统一。import org.slf4j.Logger;import org.slf4j.LoggerFactory;private static final Logger logger = LoggerFactory.getLo

2019-09-04 15:10:11 167

转载深究｜Elasticsearch单字段支持的最大字符数?

转自：https://blog.csdn.net/laoyang360/article/details/78207980在业务系统中，遇到过两个问题：问题1：设置为keyword类型的字段，插入很长的大段内容后，报字符超出异常，无法插入。问题2：检索超过ignore_above设定长度的字段后，无法返回结果。思考：Elasticsearch单字段支持的最大字符数？设置ignore_abo...

2019-09-04 14:59:50 392

shengpli′s blog