spark
文章平均质量分 64
千山我独行_不需相送
这个作者很懒,什么都没留下…
展开
-
SimpleGraphX PageRank shell
package week7import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject SimpleGraphX { def m原创 2015-12-02 08:36:35 · 521 阅读 · 0 评论 -
kafka安装及使用
一:kafka的安装1.n5上面下载:wget http://apache.dataguru.cn/kafka/0.8.1.1/kafka_2.9.2-0.8.1.1.tgz2.vi /usr/lib/kafka/config/server.properties broker.id=5log.dirs=/usr/lib/kafka/kafka-logslog.flush.i原创 2015-11-26 23:04:51 · 1065 阅读 · 0 评论 -
IntelliJ IDEA使用说明
安装完Intellij后请记得安装scala插件,此处跳过1.创建scala项目:IntelliJ IDEA使用说明单击右键,run第一次因为要进行编译时间会比较久,第二次运行就快多了进行spark开发:对刚才的程序打包:接下来进行build:原创 2015-12-06 09:12:47 · 524 阅读 · 0 评论 -
JSONObject_v3
package json;import net.sf.json.JSONArray;import net.sf.json.JSONObject;import java.io.*;import java.util.ArrayList;/** * Created by xz86173 on 2/5/2016. */public class JSONObject_原创 2016-02-24 11:52:39 · 388 阅读 · 0 评论 -
Lambda 表达式
Passing Functions to SparkScalaJavaPythonSpark’s API relies heavily on passing functions in the driver program to run on the cluster. In Java, functions are represented by classes implementi原创 2016-09-10 16:12:19 · 315 阅读 · 0 评论 -
hive参数调节
一.优化切入后session作用域set mapred.job.priorityset mapred.job.priority=VERY_HIGH整体map执行90%,才会启动reducedMR中间压缩set hive.exec.compress.intermediate=true; hive开启压缩set mapred.compress.map.o原创 2015-12-02 07:39:26 · 1761 阅读 · 0 评论 -
SparkSqlForTest
package week4/** * Created by Administrator on 2015/3/31. */import java.text.SimpleDateFormatimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.SparkConte原创 2015-12-02 07:37:43 · 422 阅读 · 0 评论 -
hadoop 学习路线
一:大数据中心的技术内幕(彻底理解Hadoop)1.Hadoop:HDFS,MapReduce,Yarn,Sqoop,Hive,Hbase2.Kafka3.Spark4.Flink5.机器学习二:彻底掌握HDFS(具备开发自己网盘的能力)1.HDFS体系架构剖析2.Namenode,Datanode,SecondaryNameNode架构3.保证Name原创 2015-11-03 17:26:09 · 883 阅读 · 0 评论 -
spark 单机模式
一.安装scalahttp://www.scala-lang.org/download/2.10.6.htmltar -zxvf scala-2.10.5.tar二.安装spark1.下载http://spark.apache.org/downloads.html选择:pre build for hadoop 2.6 later spark-1.5.2-bi原创 2015-11-24 14:47:56 · 947 阅读 · 0 评论 -
Deploy_Cluster_Apache
一:环境部署修改主机名:vi /etc/sysconfig/network修改主机名和IP的映射关系:vim /etc/hostsjava安装卸载之前版本的java1.卸载java:rpm -qa | grep java 卸载:rpm -e --nodeps 查询出来的包名1.cd /opttar -zxvf jdk-7u75-linux-x64.tar.gz原创 2015-11-26 23:01:22 · 841 阅读 · 0 评论 -
spark cluster 下 spark-shell/spark-spark提交wordcount sparksql Demo
一:环境配置My conf/spark-env.sh is:export SPARK_MASTER_IP=node1.cluster.localexport SPARK_WORKER_CORES=20export SPARK_WORKER_MEMORY=12gexport SPARK_WORKER_DIR=/scratch/cperez/sparkexport原创 2015-11-27 07:34:01 · 1709 阅读 · 0 评论 -
Deploy_Cluster_CDH
1.卸载java:rpm -qa | grep java 卸载:rpm -e --nodeps 查询出来的包名2.配置ssh: cd ~/.ssh/ ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys原创 2015-11-27 07:57:28 · 1386 阅读 · 0 评论 -
sbt编译spark源码
[username@server1 spark-1.5.2]$ /data/2/functionId/tmp/compile/sbt/bin/sbt gen-ideaGetting org.scala-sbt sbt 0.13.7 ...You probably access the destination server through a proxy server that is原创 2016-01-04 16:16:35 · 2021 阅读 · 0 评论