spark
EricJeff_
这个作者很懒,什么都没留下…
展开
-
spark整合hbase
spark联合hbase可以将hbase的数据转化为RDD数据,便于spark操作如何使它们联合呢 直接编辑spark-env.sh这个文件即可准备工作:hadoop,hbase需要有被配置成环境变量 开始:在spark-env.sh文件中添加 export SPARK_DIST_CLASSPATH=$(hadoop classpath):$(hbase class原创 2017-09-07 21:31:28 · 2457 阅读 · 0 评论 -
kafka+spark Streaming+redis小项目
这个项目主题思路是: 手机客户端会收集用户的行为事件(我们以点击事件为例),将数据发送到数据服务器,我们假设这里直接进入到Kafka消息队列 后端的实时服务会从Kafka消费数据,将数据读出来并进行实时分析,这里选择Spark Streaming,因为Spark Streaming提供了与Kafka整合的内置支持 经过Spark Streaming实时计算程序分析,将结果写入原创 2017-12-06 11:49:27 · 1141 阅读 · 0 评论 -
Scala之旅-class和object详解
1.classscala的类和C#中的类有点不一样,诸如: 声明一个未用priavate修饰的字段 var age,scala编译器会字段帮我们生产一个私有字段和2个公有方法get和set ,这和C#的简易属性类似;若使用了private修饰,则它的方法也将会是私有的。这就是所谓的统一访问原则。 细节的东西太多,还是上代码在注释里面细讲吧//类默认是public级别的 class Person转载 2017-11-04 14:19:29 · 324 阅读 · 0 评论 -
spark Streaming编写一个WorldCount的例子
我使用的是idea1.生成单词文件 2.编写worldcount 3.运行worldcount 4.上传文件首先使用java生成单词文件package com;import java.io.BufferedWriter;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.util.Ra原创 2017-10-26 11:20:32 · 500 阅读 · 0 评论 -
使用idea编辑sparkSql的程序运行出现java.lang.IllegalArgumentException: java.net.URISyntaxException
这个是具体错误:Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: file:D:/idea/work/sparkTest/spark-warehouse at org.apache.hadoop.f原创 2017-10-25 16:14:19 · 4239 阅读 · 0 评论 -
sparkSQL使用
今天直接了解它的使用:SparkSQL CLICLI(Command-Line Interface,命令行界面)是指可在用户提示符下键入可执行指令的界面,它通常不支持鼠标,用户通过键盘输入指令,计算机接收到指令后予以执行。Spark CLI指的是使用命令界面直接输入SQL命令,然后发送到Spark集群进行执行,在界面中显示运行过程和最终的结果。 Spark1.1相较于Spark1.0最大的差别就原创 2017-10-24 19:44:04 · 685 阅读 · 0 评论 -
spark on yarn
安装 hadoop环境变量:export HADOOP_HOME=/home/spark/app/hadoop-2.4.1export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport YARN_HOME=/home/spark/app/hadoop-2.4.1export YARN_CONF_DIR=$YARN_HOME/etc/hadoopexpo原创 2017-10-24 12:24:31 · 239 阅读 · 0 评论 -
使用idea创建一个wordcount例子
打开idea—>file—> project 点击finish,创建项目,然后点击 file–>project structure–>Modules 点击”+”添加你的项目,点击右边的Sources–>点击下面的sources–>在src创建main/scala文件夹然后在点击liberary 点击”+” –>scala sdk(添加SDK) 在点击”+”—>java (添加jar) 然后原创 2017-10-23 20:11:08 · 1661 阅读 · 0 评论 -
RDDs基本操作Transformation和action
首先先了解一下这些概念:Spark 对数据的核心抽象—弹性分布式数据集(Resilient Distributed Dataset,简称 RDD)RDD是一个不可变的分布式对象集合,一旦创建便不能修改。 每个RDD都可被分为多个分区,分布在不同的节点机器之上转换:(Transformation): 转化操作会由一个 RDD 生成一个新的 RDD,从已有的RDD派生出新的RDD,Spark会使用谱原创 2017-10-21 18:00:27 · 712 阅读 · 0 评论 -
spark安装local和standalone
首相下载: 下载scala http://www.scala-lang.org/ 下载spark http://spark.apache.org/downloads.html 下载对应版本安装步骤:1.tar -zxvf scala_file2.添加环境变量(/etc/profile)3.source /etc/profile4.tar -zxvf spark_file5.添加环境变原创 2017-10-19 21:37:31 · 507 阅读 · 0 评论 -
spark streaming 使用socket数据来源
1.编写监听socket的模拟socket程序 2.编写SocketWordCount 3.基于状态的单词累计出现次数 4.基于窗口的单词累计出现次数1.编写监听socket的模拟socket程序import java.io.PrintWriterimport java.net.ServerSocketimport scala.io.Sourceobject DataFlowSimulato原创 2017-10-27 14:43:18 · 2153 阅读 · 0 评论 -
spark整合hive和sql
1.首相将hive中的配置文件hive-site.xml,hadoop的配置文件core-site.xml,hdfs-site.xml------复制到$SPARK_HOME/conf/目录中2.再将jdbc驱动程序mysql-connector-java-x.x.x.jar 复制到$SPARK_HOME/jars或者$SPARK_HOME/lib目录下 3.启动动hadoop,h原创 2017-09-07 17:30:37 · 901 阅读 · 0 评论 -
windows中pyspark搭建
1.使用findspark安装spark 添加spark环境SPARK_HOME 安装findspark(pip install findspark) 使用 import findspark findspark.init() from pyspark import SparkContext from pyspark import SparkConf 2.加载...原创 2018-08-13 13:28:07 · 659 阅读 · 0 评论