Spark Learning
文章平均质量分 88
ASIA_kobe
To be Best!
展开
-
An Architecture for Fast and General Data Processing on Large Clusters
来源:https://code.csdn.net/CODE_Translation/spark_matei_phd 介绍大型集群上的快速和通用数据处理架构An Architecture for Fast and General Data Processing on Large ClustersMatei Zaharia 著CSDN CODE翻译社区 译加州大学伯克利分校电气工程和计算机科学系技术报转载 2015-10-29 09:42:35 · 988 阅读 · 0 评论 -
基于Spark Streaming的僵尸主机检测算法
转自:http://www.tuicool.com/articles/7bUJBbV基于Spark Streaming的僵尸主机检测算法张蕾 李井泉 曲武 白涛僵尸网络通过多类传播和感染程序,构建一个可一对多控制的网络,操控大量僵尸主机发起DDoS攻击、发送垃圾邮件、偷窃敏感数据和钓鱼等恶意行为。基于一种分布式实时处理框架,提出一种分布式的僵尸主机检测算法,该算法能转载 2015-11-18 21:15:37 · 1195 阅读 · 0 评论 -
加速 SBT 下载依赖库的速度
SBT翻墙手册:http://afoo.me/posts/2014-11-05-how-make-sbt-jump-over-GFW.html根据 SBT 的官网文档中 Proxy Repositories 部分的描述, 可以通过改变repositories 的 url 列表来优化.配置国内代理库感谢 OSChina 提供了 Maven Center 的镜像, 配置添加它有转载 2015-11-19 13:25:41 · 2592 阅读 · 0 评论 -
Spark学习(二)---kafka+SparkStreaming的搭建与连接
kafka+Sparkstreaming环境搭建与配置说明以及相关的测试代码的编写原创 2015-11-19 21:18:31 · 12010 阅读 · 0 评论 -
李滔:搜狐基于Spark的新闻和广告推荐实战
转自:http://www.aboutyun.com/thread-14577-1-2.html可视化工具推荐:Bi类需求在hive和sparkSQL实现,那前台显示有没有好工具?如果有比较明细的数据呢?李滔:展示工具,商用的比如Tableau,开源的比如Saiku等。群内朋友补充:hue也可以。1.如何建立用户兴趣标签?2.如何对用户兴趣的评估?3.什转载 2015-11-25 22:51:40 · 1537 阅读 · 0 评论 -
Recipes for Running Spark Streaming Applications in Production
转自:https://spark-summit.org/2015/events/recipes-for-running-spark-streaming-applications-in-production/Tathagata Das (Databricks)Tuesday, June 162:00 PM – 2:30 PMGrand Ballroom BSlides PDF转载 2015-11-27 23:42:47 · 484 阅读 · 0 评论 -
Real Time Detection of Outliers in Sensor Data using Spark Streaming
From:https://pkghosh.wordpress.com/2015/02/19/real-time-detection-of-outliers-in-sensor-data-using-spark-streaming/As far as analytic of sensor generated data is concerned, in Internet of Thin转载 2016-03-03 14:59:29 · 810 阅读 · 0 评论 -
像人类大脑一样的欺骗检测架构设计
像人类大脑一样的欺骗检测架构设计 入侵检测 Spark 实时网络流转载 2016-03-03 17:01:03 · 879 阅读 · 0 评论 -
RDD:基于内存的集群计算容错抽象
转自:http://shiyanjun.cn/archives/744.html该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译,我是基于科学网翻译基础上进行优化、修改、补充,这篇译文翻译得很不转载 2016-02-19 13:38:20 · 1178 阅读 · 0 评论 -
Spark的性能调优
转自:http://www.raychase.net/3546Distributed System •Recommended Spark的性能调优<img style="float: right;" title="Spark的性能调优" src="http://www.raychase.net/wp-c转载 2016-02-20 23:27:05 · 837 阅读 · 0 评论 -
StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎
大数据分析按照模型是否在线学习可以分为离线学习(Offline Learning))和在线学习(Online Learning)两大方式,对应的数据处理模式分别为批处理(Batch Mode)分析和流处理(Streaming)分析。在实际应用中,存在连续不断的海量、高速的流数据,这些场景下,数据通常无法全部保存,只能在通过系统时进行一次性分析处理,流数据分析平台可以发挥重要作用。Spark Str转载 2016-04-14 08:54:16 · 2324 阅读 · 0 评论 -
45倍加速Spark的处理效率?!
Spark代表着下一代大数据处理技术,并且,借着开源算法和计算节点集群分布式处理,Spark和Hadoop在执行的方式和速度已经远远的超过传统单节点的技术架构。但Spark利用内存进行数据处理,这让Spark的处理速度超过基于磁盘的Hadoop 100x 倍。但Spark和内存数据库Redis结合后可显著的提高Spark运行任务的性能,这源于Redis优秀的数据结构和执行过程,从而减小数据转载 2016-04-14 08:57:34 · 2628 阅读 · 0 评论 -
Spark 提供的概率与统计算法 - 基本统计算法
spark-mllib 使用到了Breeze线性代数包,Breeze 采用了 metlib-java包来优化数字处理,但是由于版权问题,Breeze 中缺省不包含 netlib-java 的 native proxy,需要在项目中自行引用。 compile "org.apache.spark:spark-mllib_${scalaMajorVersion}:${s转载 2016-04-16 09:56:33 · 9108 阅读 · 4 评论 -
Spark 调试
1概述针对调试,根据不同的调试对象可以分为两类:1、应用程序的调试。2、框架源码的调试。在IDE中调试时采用的方法也对应有两种:1、本地调试:可以简单理解为调试与被调试对象之间不需要通过通信的方式执行。2、远程调试。通常这两种方式都是可用的,只是在某些情况下,当被调试对象部署在远程机器节点中,而我们的调试工转载 2016-04-19 09:03:09 · 4895 阅读 · 1 评论 -
Spark学习--spark-shell使用
Spark-shell使用配置好Spark集群,测试Sparkwordcount程序,可以通过基本的Spark-shell来进行交互式的代码提交,比如:val textFile = sc.textFile("words/test.txt")val result = textFile.flatMap(line => line.split("\\s+")).map(wo原创 2015-11-18 21:13:27 · 645 阅读 · 0 评论 -
Spark学习(一)---Spark-shell使用
Spark-shell使用配置好Spark集群,测试Sparkwordcount程序,可以通过基本的Spark-shell来进行交互式的代码提交,比如:val textFile = sc.textFile("words/test.txt")val result = textFile.flatMap(line => line.split("\\s+")).map(word原创 2015-11-18 21:06:55 · 2297 阅读 · 0 评论 -
Spark学习(三)---Spark Standalone Mode说明及参数配置详解
启动集群–启动standalone模式下master server(启动完毕后可以通过http://master:8080来看你对应的spark-url,其中master对应你机器的hostname) ./sbin/start-master.sh –启动one or more works并且将他们连接到master ./sbin/start-slaves.sh –全部启动 ./sbin/原创 2015-11-20 15:12:36 · 4494 阅读 · 0 评论 -
sbt使用详解
前两天安好的sbt但是在真正的用的时候还是遇到很多问题,所以在系统学习了解下。安装:我的系统为centos6.5故采用官方提供的在线安装:curl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.reposudo mv bintray-sbt-rpm.repo /etc/yum.repos.d/sudo yum install s原创 2015-11-20 19:19:01 · 25906 阅读 · 0 评论 -
Apache Spark学习:利用Eclipse构建Spark集成开发环境
董的博客 » Apache Spark学习:利用Eclipse构建Spark集成开发环境 addEventListener("load", function(){ setTimeout(updateLayout, 0); }, false); var current转载 2015-11-16 20:35:54 · 935 阅读 · 0 评论 -
用SBT编译Spark的WordCount程序
转自:http://www.aboutyun.com/thread-8587-1-1.htmlsbt介绍sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上。sbt项目环境建立sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载到用户home的.ivy2下面,目录结构如下:|--bu转载 2015-11-19 11:15:24 · 841 阅读 · 0 评论 -
spark集群配置错误
1.当用hdfs传文件时,出现如下错误: Call to Master:9000 failed on connection exception 解决办法:把hadoop配置文件中的hdfs-site.xml中 dfs.data.dir /data/hdfs/data 中的文件夹中的所有文件删掉 然后在hadoop原创 2015-11-17 15:17:35 · 564 阅读 · 0 评论 -
单机运行spark-shell出现ERROR Remoting: Remoting error: [Startup failed]
从现象来看应该akka不能绑定到ip或者端口,于是google找到答案,http://mail-archives.apache.org/mod_mbox/spark-user/201402.mbox/%3C9A13072E9AA64A9B846FACA846FCA7C8@gmail.com%3E只要将conf/spark-env.sh添加两个环境变量:export SPARK_MASTER_IP=l原创 2015-11-16 22:43:39 · 840 阅读 · 0 评论 -
eclipse 配置scala问题-More than one scala library found in the build path
配置eclipse出错按照这篇博客http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/安装scalaIDE插件,但是并没有成功,当引入如下spark-assembly-1.5.1-hadoop2.6.0.jar(对应我自己的spark下的jar包)会报错,提示这个jar包与源环境中的jar包冲突(提示scala环境冲突)—-未解决!!原创 2015-11-16 18:55:36 · 14850 阅读 · 0 评论 -
centos把用户加入sudoers
切换到root用户,su root 2.chmod u+w /etc/sudoers 3.vi /etc/sudoers 4.在root ALL=(ALL) ALL,在他下面添加xxx ALL=(ALL) ALL (这里的xxx是你的用户名) ps:这里说下你可以sudoers添加下面四行中任意一条 youuser ALL=(ALL) A原创 2015-11-17 11:20:59 · 5448 阅读 · 0 评论 -
hadoop常用命令
官网手册很详细 网址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文转载 2015-11-17 15:23:54 · 416 阅读 · 0 评论 -
hdfs创建文件出错
hadoop fs 下的命令不能使用,使用hadoop fs -ls提示:ls: `.’: No such file or directory。 解决方案: bin/hadoop hdfs fs -mkdir -p /in bin/hadoop hdfs fs -put /home/du/input /in如果Apache hadoop版本是2.x. bin/hdfs df原创 2015-11-17 16:18:57 · 2620 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-
目录 前言 1.相关环境 2.获取代码 3.安装Hadoop 4.安装Native Lib 5.安装完成 6.相关链接前言 最近需要安装CDH4.5, 在重启后提示缺失native lib, 经过一番折腾后,终于安装成功,下面记录下native lib的获取过程.@Author duangr@Website http://www.linuxidc.com/Linux/2014-0转载 2015-11-17 16:34:12 · 676 阅读 · 0 评论 -
copyFromLocal异常DataNode启动不了
copyFromLocal: File /user/apple/test.txt.COPYING could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.刚才执行 h原创 2015-11-17 17:17:46 · 661 阅读 · 0 评论 -
SparkStreaming实验错误
转自:http://blog.csdn.net/stark_summer/article/details/49251709NetworkWordCount代码/** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the N转载 2015-11-18 16:17:00 · 2044 阅读 · 0 评论 -
spark rdd
RDD是弹性分布式数据集,即一个RDD代表一个被分区的只读数据集。一个RDD生成有两种途径,一个来自于内存集合和外部存储系统,另一种是通过转换操作来自于其他RDD,比如:map、filter、jion等。 RDD分区:对于一个RDD而言,分区的多少代表着对这个RDD进行并行计算的粒度,每一个RDD分区的计算操作都在一个单独的任务中被执行。对于分区的多少用户可以自己指定,如果没有指定将会使原创 2016-05-03 17:50:02 · 810 阅读 · 0 评论