Spark
BUPT-WT
不积硅步无以至千里,不积小流无以成江海
展开
-
spark计算TF-IDF值(中文)
背景: 挖掘重要的关键词问题:数据量较大(百万量级),单机版的python虽然处理起来简单,但是时间较长,内存是否溢出还不好说(看机器性能)解决方案: spark 分布式处理原始数据: 一个txt文件,文件格式每一行都是去停用词、分词之后的句子代码如下:import org.apache.spark.ml.feature.{HashingTF,IDF,Tokenizer}...原创 2019-12-05 21:22:09 · 1145 阅读 · 0 评论 -
1-spark学习笔记-大数据概述
原创 2019-06-02 20:58:25 · 124 阅读 · 0 评论 -
开启大数据时代谷歌三篇论文-Mapreduce
摘要MapReduce 是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一 个 Map 函数处理一个基于 key/value pair 的数据集合,输出中间的基于 key/value pair 的数据集合;然后再创建 一个 Reduce 函数用来合并所有的具有相同中间 key 值的中间 value 值。现实世界中有很多满足上述处理模型 的例子,本论文将详细描述这个...翻译 2019-06-02 21:34:29 · 614 阅读 · 0 评论 -
2-spark学习笔记-spark发展概述
原创 2019-06-02 21:41:16 · 107 阅读 · 0 评论 -
3-spark学习笔记-SparkAPI
API详解如下所示:具体操作如下所示:Transformer操作:1、Map2、filter3、flatMap4、mapPartitions5、mapPartitionsWithIndex6、repartition (数据分配不均、性能扩展比较慢,需要repartition 比较消耗资源...原创 2019-06-03 11:27:14 · 150 阅读 · 0 评论 -
8-spark学习笔记-sparksql
原创 2019-06-09 10:46:56 · 134 阅读 · 0 评论 -
开启大数据时代谷歌三篇论文-BigTable
1 摘要Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服 务器上的 PB 级的数据。Google 的很多项目使用 Bigtable 存储数据,包括 Web 索引、Google Earth、Google Finance。这些应用对 Bigtable 提出的要求差异非常大,无论是在数据量上(从 URL 到网页到卫星图像)还是在响应速度上(从...翻译 2019-06-03 19:11:01 · 1128 阅读 · 0 评论 -
9-spark学习笔记-sparkstreaming
原创 2019-06-10 09:46:02 · 106 阅读 · 0 评论 -
4-spark学习笔记-spark运行模式与原理
原创 2019-06-04 10:29:00 · 130 阅读 · 0 评论 -
开启大数据时代谷歌三篇论文-GFS
摘要我们设计并实现了 Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。 GFS 虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的 服务。虽然 GFS 的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们的设计还是以我们对 自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS 和早期...翻译 2019-06-13 20:56:07 · 3938 阅读 · 0 评论 -
7-spark学习笔记-spark性能调优
原创 2019-06-08 07:54:18 · 115 阅读 · 0 评论 -
6-spark学习笔记-spark core 数据与存储
原创 2019-06-07 10:22:09 · 136 阅读 · 0 评论 -
Hive到SparkSql
1、SQLContext/HiveContext/SparkSession的使用Spark1.x中SparkSql的入口点是:HiveContext#sc is an existing SparkContextVal sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)Spark 2.x中SparkSql的入口点是:S...原创 2018-11-30 17:54:38 · 199 阅读 · 0 评论 -
Spark DataFrame&DataSet
1、DataFrame产生背景 Google trend —>DataFrame DataFrame不是spark SQL提出的,而是早起源于R、python Spark RDD API vs MapReduce API Threshold R/Pandas ...原创 2018-11-30 18:04:11 · 186 阅读 · 0 评论 -
SparkSql读取外部数据源
1、产生背景 用户需求:方便快速从不同的数据源(json、parquet、rdbms),经过混合处理(json join parquet),再将处理结果以特定的格式(son、Parquet)写回指定的系统(HDFS、S3)上去Spark SQL 1.2 ==> 外部数据源API Loading and saving Data is not easy Pars...原创 2018-11-30 18:09:27 · 1212 阅读 · 0 评论 -
SparkSql常用命令操作
1、进入spark-shell模式 spark-shell --master yarn --executor-memory 4g --num-executors 3 --executor-cores 42、spark sql查询Hive数据库 import spark.sql sql("use database_name”) ...原创 2018-11-30 20:46:32 · 4403 阅读 · 0 评论 -
Idea配置spark环境及编写scala代码
由于之前在往上没有找到比较好的关于IDEA配置spark环境,现在分享一下1、打开IDEAcreate New Project2、创建项目,如下图所示 3、配置maven文件,即使你本地没有spark、scala、hadoop环境也没有关系,maven会自动下载及加载到maven里面,只需要你指定相应版本就好,指定好maven之后,自动下载过程需...原创 2019-02-27 09:20:14 · 3074 阅读 · 1 评论 -
spark读取hbase数据
importorg.apache.hadoop.hbase.HBaseConfiguration importorg.apache.hadoop.hbase.mapreduce.TableInputFormat importorg.apache.spark.sql.SparkSession importscala.collection.mutable obj...原创 2019-03-25 19:37:17 · 1854 阅读 · 0 评论 -
spark读取hive&&hdfs数据
importorg.apache.spark.sql.SparkSession importorg.apache.spark.SparkConf importorg.apache.spark.sql.functions.{col,split} /** *Createdbywt */ objectAcquireOl...原创 2019-03-25 19:44:26 · 1755 阅读 · 0 评论 -
5-spark学习笔记-spark集群应用与监控
原创 2019-06-06 15:45:40 · 284 阅读 · 0 评论 -
SparkSQL概述
1、SparkSQL前世今生 为什么需要SQL 1)事实上的标准:统计分析的标准 2)易学易用 3)受众面大例子:对文本文件进行统计分析:id,name,age,city1001,zhangsan,45,beijing....table定义:Personcolumn定义: id:int name:string ag...原创 2018-11-17 17:10:24 · 146 阅读 · 0 评论