Spark
文章平均质量分 90
王小雷-多面手
简单而真诚。专注大数据,机器学习,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!
展开
-
Spark学习之键值对(pair RDD)操作(3)
Spark学习之键值对(pair RDD)操作(3)1. 我们通常从一个RDD中提取某些字段(如代表事件时间、用户ID或者其他标识符的字段),并使用这些字段为pair RDD操作中的键。2. 创建pair RDD1)读取本身就是键值对的数据2)一个普通的RDD通过map()转为pair RDD,传递的函数需要返回键值对。Python中使用第一个单词作为键创建出一个pair RDD pai原创 2016-01-15 16:06:06 · 5435 阅读 · 0 评论 -
Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例
Ubuntu16.04安装Hadoop2.6+Spark1.6,并安装python开发工具Jupyter notebook,通过pyspark测试一个实例,調通整个Spark+hadoop伪分布式开发环境。主要内容:配置root用户,配置Hadoop,Spark环境变量,Hadoop伪分布式安装并测试实例,spark安装并通过Jupter notebook进行开发实例,配置Jupter notebo原创 2016-07-19 13:27:49 · 15310 阅读 · 1 评论 -
spark (java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码图1,直接在intellij IDEA(社区版)中开发调试,直接run。图2原创 2017-02-07 20:50:39 · 18797 阅读 · 1 评论 -
Spark jdbc postgresql数据库连接和写入操作源码解读
概述:Spark postgresql jdbc 数据库连接和写入操作源码解读,详细记录了SparkSQL对数据库的操作,通过java程序,在本地开发和运行。整体为,Spark建立数据库连接,读取数据,将DataFrame数据写入另一个数据库表中。附带完整项目源码(完整项目源码github)。1.首先在postgreSQL中创建一张测试表,并插入数据。(完整项目源码Github)1.1. 在post原创 2017-02-10 09:08:26 · 13977 阅读 · 3 评论 -
Apache Beam WordCount编程实战及源码解读
概述:Apache Beam WordCount编程实战及源码解读,并通过intellij IDEA和terminal两种方式调试运行WordCount程序,Apache Beam对大数据的批处理和流处理,提供一套先进的统一的编程模型,并可以运行大数据处理引擎上。完整项目Github源码负责公司大数据处理相关架构,但是具有多样性,极大的增加了开发成本,急需统一编程处理,Apache Beam,一处编原创 2017-02-21 10:41:31 · 7795 阅读 · 4 评论 -
“卜算子·大数据”学习系列原创文章、源码——从入门到精通
大数据 big-data 转载请注明出处与作者信息(如下)原创作者:王小雷作品出自:https://github.com/wangxiaoleiAI/big-data联系邮件:wov@outlook.comStar Fork Follow 评论 issues项目地址 https://github.com/wangxiaoleiAI/machine-learning...原创 2018-06-14 10:26:01 · 1247 阅读 · 1 评论 -
卜算子·大数据简介 一个开源、成体系的大数据学习教程
第1章 卜算子·大数据简介“卜算子·大数据”,是一个开源、成体系的大数据学习教程。从基础数据采集到顶层架构设计。最新梳理出大数据知识体系共计12个部分,42个章节。每周日更新,金九银十际,助你上青天!本章主要内容:特点“卜算子·大数据”架构项目更新写作目的原创声明1.1 特点* 关于 * ——“卜算子·大数据”,其中“卜算子”是中国诗词中唯一包含计算、占卜、...原创 2018-06-29 11:50:52 · 2495 阅读 · 0 评论 -
14.1 Apache Spark 简介快速入门
14.1 Apache Spark 简介快速入门“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:速度简单易用Spark架构到处运行多种数据源14.1.1 速度百倍的运行速度。Spark使用先进的DAG调度系统,查询优化器与物理执行引擎,实现了批处理与流处理的高性能。14.1.2 简单易用、支持开发语言丰富df = ...原创 2018-07-15 22:03:00 · 726 阅读 · 0 评论 -
14.3 Spark-SQL基于PostgreSQL数据分析编程实例
14.3 Spark-SQL编程-PostgreSQL-Cassandra数据分析“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Spark对PostgreSQL数据源数据的处理,通过Spark SQL对结构化数据进行数据分析。创建Gradle项目,引入依赖创建连接读数据库写数据库完整源码Spark2PostgreSQL.java完...原创 2018-07-15 22:08:35 · 1682 阅读 · 0 评论 -
14.4 Spark-SQL基于Cassandra数据分析编程实例
14.4 Spark-SQL编程-PostgreSQL-Cassandra数据分析“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容:Spark对Canssandra数据库数据的处理,通过Spark SQL对结构化数据进行数据分析。创建Gradle项目,引入依赖创建Spark Session连接写入Cassandra数据库读取Cassandra数...原创 2018-07-15 22:39:39 · 3133 阅读 · 0 评论 -
用windows浏览器打开Linux的Jupyter notebook开发、调试示例
1.场景,在windows浏览器中打开Linux环境下的jupyter notebook。Jupyter notebook 服务,Spark计算环境在Linux服务器中,而工作环境是windows。在windows下使用jupyter notebook环境进行开发、调试。配置文件Github源码然后在windows下编程即可调试2.安装python和jupyter notebook(spark部署略可参考我其他博文)原创 2016-11-25 13:51:45 · 18400 阅读 · 4 评论 -
Spark企业级应用开发和调优
Spark项目编程优化历程记录,主要介绍了Spark企业级别的开发过程中面临的问题和调优方法。包含合理分配分片,避免计算中间结果(大数据量)的collect,合理使用map,优化广播变量等操作,降低网络和磁盘IO,提高计算效率。原创 2016-09-05 13:22:19 · 1889 阅读 · 0 评论 -
Spark应用(app jar)发布到Hadoop集群的过程
记录了Spark,Hadoop集群的开启,关闭,以及Spark应用提交到Hadoop集群的过程,通过web端监控运行状态。1.绝对路径开启集群(每次集群重启,默认配置的hadoop集群中tmp文件被清空所以需要重新format) 我的集群安装位置是/opt/hadoop下,可以根据自己路径修改。/opt/hadoop/bin/hdfs namenode -format/opt/hadoop/sbi原创 2016-07-19 16:13:03 · 2762 阅读 · 0 评论 -
Spark学习之数据读取与保存(4)
Spark学习之数据读取与保存(4)1. 文件格式Spark对很多种文件格式的读取和保存方式都很简单。如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。2. 读取/保存文本文件Python中读取一个文本文件 input = sc.textfile("file:///home/holen/repos/spark/README.m原创 2016-01-15 16:07:37 · 3131 阅读 · 0 评论 -
Spark学习之RDD编程(2)
Spark之RDD编程(2)1. Spark中的RDD是一个不可变的分布式对象集合。2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。3. 创建RDD:1)读取一个外部数据集2)在驱动器程序里分发驱动器程序中的对象集合。4. RDD支持的操作:1)转换操作,由一个RDD生成一个新的RDD。2)行动操作,对RDD进行计算结果,并把结果返回到驱动器程序中,或者原创 2016-01-15 15:07:22 · 1378 阅读 · 0 评论 -
Spark学习之基础相关组件(1)
Spark之基础相关组件(1)1. Spark是一个用来实现快速而通用的集群计算的平台。2. Spark的一个主要特点是能够在内存中进行计算,因而更快。3. RDD(resilient distributed dataset弹性分布式数据集)表示分布在多个计算节点上可以并行操作的元素的集合,是Spark的主要编程抽象。4. Spark是一个大一统的软件栈:4.1 Spark core实现了Spark原创 2016-01-15 14:48:04 · 1391 阅读 · 0 评论 -
Spark学习之在集群上运行Spark(6)
Spark学习之在集群上运行Spark(6)1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。3. Spark在分布式环境中的架构:Created with Raphaël 2.1.0我的操作集群管理器Mesos、YARN、或独立集群管理器N个集群工作节点(执行器进程)Spark集群采用的是主原创 2016-01-19 12:26:26 · 1634 阅读 · 0 评论 -
Spark学习之Spark SQL(8)
Spark学习之Spark SQL(8)1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、2. Spark SQL的三大功能2.1 Spark SQL可以从各种结构化数据(例如JSON、Hive、Parquet等)中读取数据。2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询,也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器原创 2016-01-19 14:57:07 · 1647 阅读 · 0 评论 -
Spark学习之Spark调优与调试(7)
Spark学习之Spark调优与调试(7)1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项。当创建一个SparkContext时就会创建一个SparkConf实例。2. Spark特定的优先级顺序来选择实际配置:优先级最高的是在用户代码中显示调用set()方法设置选项;其次是通过spark-submit传递的参数;再次是写在配置文件里的值;最后是系统的默认值。3.原创 2016-01-19 14:54:47 · 1213 阅读 · 0 评论 -
Spark学习之Spark Streaming(9)
Spark学习之Spark Streaming(9)1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码。2. Spark Streaming使用离散化(discretized steam)作为抽象表示,叫做DStream。DStream是随时间推移而收到的数据的序列。3. DSteam支持两种操作:转换操作(tra原创 2016-01-19 15:02:17 · 1337 阅读 · 0 评论 -
Spark学习之编程进阶——累加器与广播(5)
Spark学习之编程进阶——累加器与广播(5)1. Spark中两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。累加器对信息进行聚合,而广播变量用来高效分发较大的对象。2. 共享变量是一种可以在Spark任务中使用的特殊类型的变量。3. 累加器的用法:* 通过在驱动器中调用SparkContext.accumulator(initialValu原创 2016-01-15 17:09:01 · 1647 阅读 · 0 评论 -
spark编程python实例
spark编程python实例ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[])1.pyspark在jupyter notebook中开发,测试,提交1.1.启动IPYTHON_OPTS="notebook" /opt/spark/原创 2016-07-17 23:51:23 · 17329 阅读 · 0 评论 -
Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.6
问题:spark实时处理数据报错 Spark Structured Streaming kafka 报错 Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.6问题在于spark目前使用的Jackson是2.6+,而storm-kafka-cli...原创 2018-09-05 17:15:11 · 9587 阅读 · 1 评论