spark
山鹰的天空
追求漂亮的技术,让用户有最好的体验。
展开
-
spark执行sql语句
spark-sql回车 接下来就是执行hive的sql了。原创 2016-07-27 15:50:52 · 3537 阅读 · 0 评论 -
jdbc调用sparksql
将hive-site.xml拷贝到Spark目录下conf文件夹 local模式spark-sql --driver-class-path /usr/local/hive-1.2.1/lib/mysql-connector-java-5.1.31-bin.jar11或者 需要在$SPARK_HOME/conf/spark-env.sh中的SPARK_CLASSPAT转载 2016-08-22 16:38:44 · 1993 阅读 · 0 评论 -
SparkSQL使用之JDBC代码访问Thrift JDBC Server
启动ThriftJDBCServer:cd $SPARK_HOME/sbinstart-thriftserver.sh &使用jdbc访问ThriftJDBCServer代码段:package com.luogankun.spark.sqlimport java.sql.DriverManagerimport java.sql.Connect转载 2016-08-22 16:12:01 · 2163 阅读 · 0 评论 -
如何使用Spark SQL 的JDBC server
摘要如何使用Spark SQL 的JDBC server简介 Spark SQL provides JDBC connectivity, which is useful for connecting business intelligence (BI) tools to a Spark cluster and for sharing a cluster acro转载 2016-08-22 11:49:38 · 3176 阅读 · 0 评论 -
编写java程序访问spark环境
Spark本身是使用scala语言编写的,但是Spark提供了访问Spark环境的Java API,使得可以从Java程序中访问Spark环境。准备环境在互联的5台机器上同时部署Spark环境和Hadoop环境,之所以部署Hadoop环境,是为了让Spark可以从HDFS加载数据。Spark的版本是为CDH4预编译的0.8.0,Hadoop的版本为CDH4(好像是CDH4.原创 2016-08-22 10:46:28 · 2311 阅读 · 0 评论 -
Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。
Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。它们的主要应用场景是:Spark Streaming:Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。Spark SQL:S转载 2016-08-31 14:33:57 · 14910 阅读 · 0 评论 -
spark sql简单示例java
运行环境集群环境:CDH5.3.0具体JAR版本如下:spark版本:1.2.0-cdh5.3.0hive版本:0.13.1-cdh5.3.0hadoop版本:2.5.0-cdh5.3.0spark sql的JAVA版简单示例spark sql直接查询JSON格式的数据spark sql的自定义函数转载 2016-07-22 10:37:41 · 10864 阅读 · 1 评论 -
spark sql基本使用方法介绍
spark sql基本使用方法介绍spark中可以通过spark sql 直接查询hive或impala中的数据, 一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g转载 2016-07-22 10:35:20 · 9908 阅读 · 0 评论 -
spark的性能测试
一直在使用hive做分布式大数据查询工作,越来越发现做为一个离线查询数据库来说,这样的效率真的是让人抓狂啊。网上说spark的性能是非常优越的,所以做了个环境安装了个,在centos的虚拟机上跑一下,果然性能非常的好,这个真的是令人惊喜的,在大数据的今天,人们需要大数据,又需要高效的查询效率,spark真的满足了这个需求,希望spark越来越好,spark支持hive的sql语法,这样对于关系型数原创 2016-08-01 09:58:53 · 4243 阅读 · 0 评论 -
spark的安装方法
conf里的spark-env.shexport SCALA_HOME=/home/scalaexport JAVA_HOME=/usr/jdkexport SPARK_MASTER_IP=192.168.128.131export SPARK_WORKER_MEMORY=512mexport localhost=spark://192.168.128.131:7070原创 2016-07-29 10:14:28 · 577 阅读 · 0 评论 -
hive的更新和删除操作脚本
insert overwrite table t_table1 select * from t_table1 where XXXX;其中xxx是你需要保留的数据的查询条件。如果清空表,如下:insert overwrite table t_table1 select * from t_table1 where 1=0;原创 2016-07-28 09:32:35 · 1250 阅读 · 0 评论 -
spark-sql
create table mt_info_day6(src int, tel string,submit_time string,smscontent string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '#' STORED AS TEXTFILE;load data local inpath '/home/MT_INFO_DAY.txt' in原创 2016-09-05 14:29:54 · 346 阅读 · 0 评论