spark
文章平均质量分 59
夜月xl
这个作者很懒,什么都没留下…
展开
-
解决编译Apache出现的问题:configure: error: APR not found . Please read the documentation
今日编译apache时出错:#./configure --prefix……检查编辑环境时出现:checking for APR... noconfigure: error: APR not found . Please read the documentation解决办法:1.下载所需软件包:wget http://archive.apache.org/d转载 2015-06-23 16:29:48 · 432 阅读 · 0 评论 -
graphx操作实例03-导入顶点和边生成图
导入顶点和边的信息,使用Graph生成图import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject原创 2016-01-08 15:00:02 · 3138 阅读 · 1 评论 -
graphx操作实例04-使用mapReduceTriplets、mapEdges、mapVertices修改属性
使用mapReduceTriplets、mapEdges、mapVertices操作修改属性import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import org.apache原创 2016-01-08 15:44:40 · 6371 阅读 · 0 评论 -
graphx操作实例05-VertexRDD和EdgeRDD属性测试
filter、mapValues、diff(测试之后感觉有问题)、leftJoin、innerJoin、aggregateUsingIndex、reverse、import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org原创 2016-01-08 17:54:31 · 2966 阅读 · 0 评论 -
graphx操作实例06-subgraph和groupEdges
使用subgraph生成子图groupEdges用来合并相同Id的边import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import org.apache.spark原创 2016-01-08 18:21:55 · 4710 阅读 · 0 评论 -
graphx操作实例07-degrees和neighbors
求图中对应顶点的度以及邻居节点import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject Day1原创 2016-01-11 09:20:55 · 2624 阅读 · 0 评论 -
graphx操作实例08-connectedComponents
import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDimport scala.reflect.ClassTago原创 2016-01-11 09:40:52 · 3721 阅读 · 0 评论 -
graphx上的一些简单应用
原文网址:http://kubicode.me/2015/07/07/Spark/Graphs-Applications/#二跳邻居看实验用的图:该图可以使用如下代码来进行标示123456789101112val sc=new SparkContext();val edge=List(//边的信息 (1,2),(1,3),(2,转载 2016-01-12 09:55:53 · 4544 阅读 · 1 评论 -
Spark: sortBy和sortByKey函数详解
在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进转载 2016-02-03 21:40:11 · 9937 阅读 · 1 评论 -
graphx操作实例02-joinVertices
例子说明:利用joinVertices和outJoinVertices对graph的顶点属性进行修改import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import or原创 2016-01-08 14:49:45 · 3442 阅读 · 0 评论 -
graphx操作实例01-edgeListFile导入数据
import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject Day02 { def main(arg原创 2016-01-08 14:29:49 · 5642 阅读 · 1 评论 -
Spark处理Json格式数据(Python)
前言 Spark能够自动推断出Json数据集的“数据模式”(Schema),并将它加载为一个SchemaRDD实例。这种“自动”的行为是通过下述两种方法实现的: jsonFile:从一个文件目录中加载数据,这个目录中的文件的每一行均为一个JSON字符串(如果JSON字符串“跨行”,则可能导致解析错误); jsonRDD:从一个已经存在的RDD中加载数转载 2015-12-23 11:06:04 · 4208 阅读 · 0 评论 -
Spark MLlib系列(一):入门介绍
文章转自:http://blog.csdn.net/shifenglov/article/details/43762705前言最新的情况是国内BAT已经都上了spark,而且spark在hadoop上的应用,大有为大象插上翅膀的效果。个人估计在未来两到三年,spark大有代替hadoop的mapreduce的趋势。应该说spark的在使用上面的经济成本,性能优势,一转载 2015-06-23 12:21:37 · 890 阅读 · 0 评论 -
Hadoop、Spark、HBase与Redis的适用性讨论(全文)
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景(首先声明一点,本文中所指的Hadoop,是很“狭义”的Hadoop,即在转载 2015-12-30 11:56:20 · 502 阅读 · 0 评论 -
graphx操作实例09-Pregel学习
import org.apache.spark._import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDimport scala.reflect.ClassTago原创 2016-01-11 14:44:28 · 2116 阅读 · 3 评论 -
cloudera manager搭建spark集群: No route to host
出现No route to host错误,可能是由于某个节点机器的防火墙没有关掉原创 2016-01-19 19:36:34 · 1997 阅读 · 0 评论 -
spark graphx从txt文件中读数据构建图
最近再搞spark的graphx,目的是做一个知识图谱,由于没有scala编程经验,搞得心好累。。。话不多说,上demo文本 zygj_vertice_attr.txt 数据形式1 阿胶2 肺4 肝5 肾6 矮地茶文本 zygj_edge_attr.txt 数据形式1 2归经关系1 4 归经关系1 5 归经关系程序功能:导入顶点以及边的数原创 2016-01-05 17:11:23 · 4210 阅读 · 1 评论 -
Spark and SPARQL; RDF Graphs and GraphX
原文地址:http://www.snee.com/bobdc.blog/2015/03/spark-and-sparql-rdf-graphs-an.htmlSome interesting possibilities for working together.In Spark Is the New Black in IBM Data Magazine, I recentl转载 2016-01-05 17:54:02 · 1530 阅读 · 1 评论 -
Running Spark GraphX algorithms on Library of Congress subject heading SKOS
原文网址:http://www.snee.com/bobdc.blog/2015/04/running-spark-graphx-algorithm.htmlLast month, in Spark and SPARQL; RDF Graphs and GraphX, I described how Apache Spark has emerged as a more effi转载 2016-01-05 17:59:42 · 671 阅读 · 0 评论 -
spark graphx文章整理
graphx看到的比较有参考价值的文章:1. 官方文档中文版:https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/quick-start/README.html2. 快刀初试:Spark GraphX在淘宝的实践:http://www.csdn.net/article/2014-08-07/2821097转载 2016-01-13 16:04:29 · 2133 阅读 · 0 评论 -
sbt发布assembly解决jar包冲突问题 deduplicate: different file contents found in the following
一、问题定义 最近在用sbt打assembly包时出现问题,在package的时候,发生jar包冲突/文件冲突问题,两个相同的class来自不同的jar包在classpath内引起冲突。具体是:我有一个self4j的jar, 还有一个hadoop-common-hdfs的jar包,其中hadoop-common-hdfs.jar内包含了self4j这个jar包,导致冲突。转载 2016-02-04 16:52:57 · 2253 阅读 · 0 评论