spark
文章平均质量分 76
一流小风一
凛冬将至!
展开
-
Hbase_shell底层源码乱砍乱伐--59
大约10个月没有更新博客了,一直在学习新的东西,忙的不可开胶,现在一边整理做过的事情,以便复习一下。白天要工作也只有后半夜才有时间看书了。------青春无悔下面的代码是关于Hbase shell脚本的源码的改写,屏蔽了一些功能,便于理解和安全操作。现在没时间逐一解释关键点的含义,以后有时间再改,替换掉集群中:hbase_home:/lib/ruby/shell.rb# She原创 2016-07-12 01:07:11 · 840 阅读 · 0 评论 -
spark:--spark一些概念--9
Application: 基于Spark的⽤用户程序,包含了driver程序和集群上的executorDriver Program :运⾏行main函数并且新建SparkContext的程序Cluster Manager: 在集群上获取资源的外部服务(例如:standalone,Mesos,Yarn )Worker Node :集群中任何可以运⾏行应⽤用代码的节点Executor:原创 2015-02-07 13:54:00 · 475 阅读 · 0 评论 -
spark:--一些简单的scala语句--6
隐式转换,隐式类,隐式参数:package cn.sendohhadoop.scala/** * Created by sendoh on 2015/2/3. */class Basic5 {}class A{}class RichA(a : A){ def rich: Unit ={ println("money") }}object Basic5原创 2015-02-03 21:24:28 · 541 阅读 · 0 评论 -
spark:协同过滤--17
数据挖掘算法:简单的商品推荐开始以为跟着例子自己写一遍能有助于了解scala的语法···结果全写完发现好多地方没看懂···(在高负荷的运行下独立显卡还给烧了,还好是双显卡还剩个集成显卡,这就是老天给的启示:这台电脑以后告别游戏了)···教程看了一遍了···基本框架以及运行部署也差不多了···接下来该自己动手练习编程了···package akriaimport java.io.File原创 2015-03-26 21:03:24 · 645 阅读 · 0 评论 -
spark:--一些简单的scala语句--3
简单的入门语句:package cn.sendohhadoop.scala/** * Created by sendoh on 2015/2/3. */class Basic2 {}abstract class Person{ def speak val name : String var age : Int}class Student1 extends Per原创 2015-02-03 16:00:39 · 381 阅读 · 0 评论 -
spark:--一些简单的scala语句--4
入门语句:package cn.sendohhadoop.scala/** * Created by sendoh on 2015/2/3. */class Basic3 {}class Applytest{ def apply() = "Apply" def test: Unit ={ println("test") }}object Applytes原创 2015-02-03 16:03:36 · 331 阅读 · 0 评论 -
spark:--一些简单的scala语句--5
入门语句:package cn.sendohhadoop.scala/** * Created by sendoh on 2015/2/3. */class Basic4 {}object Basic4 extends App{ val value = 1 val result = value match{ case 1 => "one" case 2原创 2015-02-03 16:06:00 · 448 阅读 · 0 评论 -
spark:--一些简单的scala语句--1
一些简单的scala语句:package cn.sendohhadoop.scala/** * Created by sendoh on 2015/2/2. */class Basic {}object Basic { def hello(name : String = "lllf") : String = { "Hello :" + name } de原创 2015-02-02 20:48:32 · 932 阅读 · 0 评论 -
spark:spark启动、spark-shell启动及测试--7
1.先启动hadoop,启动hdfs和yarn。在开发Spark时,仅需要启动hdfs:cd /usr/local/hadoop-2.4.0/etc/hadoop1 sbin/start-dfs.sh 2 sbin/start-yarn.sh2.启动saprk1 cd /usr/local/spark-1.1.0-bin-hadoop2.4/sbin2 ./start-原创 2015-02-05 13:12:53 · 2156 阅读 · 0 评论 -
spark:SparkSQL练习--51
package llfimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.ListBuffer/** * Create原创 2015-06-26 23:26:53 · 920 阅读 · 0 评论 -
spark:架构+运行机制的一些总结--50
Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,spark是一个计算框架//中间结果:spark保存到内存、Hadoop保存到磁盘,spark将执行模型抽象为通用的有向无环图通用计划(DAG)///////////////////////////////////////////////////////////////////////////////////////原创 2015-06-25 09:57:48 · 2352 阅读 · 0 评论 -
spark:学习杂记+案例--40
《快学scala》第九章课后习题:1.编写一小段Scala代码,将某个文件中的行倒转顺序(将最后一行作为第一行,依此类推)2.编写Scala程序,从一个带有制表符的文件读取内容,将每个制表符替换成一组空格,使得制表符隔开的n列仍然保持纵向对齐,并将结果写入同一个文件3.编写一小段Scala代码,从一个文件读取内容并把所有字符数大于12的单词打印到控制台。如果你能用单行代码完成会有额外奖原创 2015-05-10 23:07:06 · 497 阅读 · 0 评论 -
spark:学习杂记+案例--41
《快学scala》第十章课后习题:1 .java.awt.Rectangle类有两个很有用的方法translate和grow,但可惜的是像java.awt.geom.Ellipse2D这样的类没有。在Scala中,你可以解决掉这个问题。定义一个RenctangleLike特质,加入具体的translate和grow方法。提供任何你需要用来实现的抽象方法,以便你可以像如下代码这样混入该特质: v原创 2015-05-10 23:21:32 · 447 阅读 · 0 评论 -
spark:学习杂记+调用自行编译的函数--27
1.映射 构造映射: val scores = Map("Alice" -> 10, "Bob" -> 3, "Cindy" -> 8) 或者从空的映射开始: val scores = new scala.collection.mutable.HashMap[String, Int] 获取映射的值: val bobsScore = scores.getOrElse原创 2015-04-22 23:51:14 · 420 阅读 · 0 评论 -
spark:--spark-shell运行简单语句、用Idea编写例子--8
spark集群启动:MASTER=spark://host:port ./spark-shell**********************************在终端:hadoop fs -tail /lab/SogouQ.full***********************************scala> val data = sc.textFile("hdfs://s原创 2015-02-06 15:20:34 · 946 阅读 · 0 评论 -
spark:第一次接触聚类分析Kmeans算法--16
机械语言 kmeans算法package akriaimport org.apache.log4j.{Logger, Level}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.{SparkConte原创 2015-03-24 21:06:55 · 1083 阅读 · 0 评论 -
spark:--一些简单的scala语句--2
一些简单的语句:package cn.sendohhadoop.scala/** * Created by sendoh on 2015/2/2. */class Basic1 {}//class Person{// var name : String = _// val age = 10// //private [this] val pender = "male"原创 2015-02-02 20:49:14 · 387 阅读 · 0 评论 -
Hbase_shell底层源码乱砍乱伐--59
大约10个月没有更新博客了,一直在学习新的东西,忙的不可开胶,现在一边整理做过的事情,以便复习一下。白天要工作也只有后半夜才有时间看书了。------青春无悔下面的代码是关于Hbase shell脚本的源码的改写,屏蔽了一些功能,便于理解和安全操作。现在没时间逐一解释关键点的含义,以后有时间再改,替换掉集群中:hbase_home:/lib/ruby/shell.rb# She原创 2016-07-12 01:06:08 · 591 阅读 · 0 评论 -
Kafka + Streaming 测试 --57
1.producerpackage llfimport java.utilimport java.util.Propertiesimport org.apache.kafka.clients.producer.{ProducerConfig, KafkaProducer, ProducerRecord}/** * Created by root on 15-9-2. */obj原创 2015-09-08 16:53:19 · 496 阅读 · 0 评论 -
spark的安装部署--10(源码编译安装hadoop+spark+解决64位系统本地库问题)
Centos7hadoop-2.4.0-src.tar.gzjdk-7u67-linux-x64.tar.gz scala-2.10.4.tgzspark-1.2.0-bin-hadoop2.4.tgzSpark的开发环境,本文选择Windows7平台,IDE选择IntelliJ IDEA。在Windows中,需要安装以下软件:IntelliJ IDEA 13.1原创 2015-03-11 21:46:53 · 838 阅读 · 0 评论 -
Streaming(Test改改 )
package llfimport java.io.{PrintWriter, OutputStreamWriter, IOException, BufferedOutputStream}import java.nio.ByteBufferimport java.nio.charset.Charsetimport java.util.concurrent.{TimeUnit, Execu原创 2015-09-11 15:11:07 · 612 阅读 · 0 评论 -
Zookeeper集群搭建+Kafka集群搭建--55
Zookeeper 是 一个分布式。开放源码的分布式应用程序协调服务,是Google Chubby的一个开源实现,大多数的分布式应用都需要Zookeeper的支持,这篇文章先简单的和大家分享如何搭建一个zookeeper集群。配置环境:5台Centos6.5系统的服务器第一步: 安装 JDK/JRE第二步:下载zookeeper : http://zookeeper.apache.原创 2015-08-25 23:01:06 · 466 阅读 · 0 评论 -
Streaming测试用例(改)--54
package llfimport java.io.{PrintWriter, OutputStreamWriter, IOException, BufferedOutputStream}import java.util.concurrent.{TimeUnit, Executors}import java.net.ServerSocketimport spire.std.bytei原创 2015-08-06 22:55:50 · 795 阅读 · 0 评论 -
sparkstreaming性能测试简单例子--53
package llfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkContext, SparkConf}/** * Created by root on 15-原创 2015-07-31 11:28:01 · 1510 阅读 · 1 评论 -
kafka--简介
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例转载 2015-09-04 17:12:44 · 319 阅读 · 0 评论 -
Kafka集群简单操作--56
1.启动zookeeper集群:在quad101~quad105五台节点上分别启动 bin/zookeeper-server-start.sh config/zookeeper.properties(leader随机).2.启动kafka集群:在quad101~quad105五台节点上分别启动 bin/kafka-server-start.sh config/server.properties原创 2015-09-08 16:44:57 · 444 阅读 · 0 评论 -
Spark:K-Means||算法原理、K-Means++算法原理--52
K-Means||算法原理为:(在基于Spark MLlib中的K-Means算法初始化K个类簇中心时的方法之一,另一种是随机选取K个中心)1.为每个run的K-Means随机选择一个初中心点,然后再平均随机选择2k个点,每个点被选择的概率和该点到类簇中心的距离成正比;2.对选出的这2k个点做一次K-Means++,找出k个初始化类簇中心,在这2k个左右的点上基于k初始化类簇中心执行多次L原创 2015-07-06 20:50:37 · 2783 阅读 · 0 评论 -
初学spark--scala--45
spark1.3.1默认不支持Hive,如果想要在SparkSQL中使用HiveContext需要自己编译spark的版本。在Hive里定义一个数据库saledata和三个表MDate、MStock、MStockDetail,并装载数据,具体命令如下:CREATE DATABASE SALEDATA;use SALEDATA;//Date.txt定义了日期的分类,将每天分别赋予原创 2015-05-31 21:45:24 · 566 阅读 · 0 评论 -
spark:仿写案例--30
最近在仿写spark官方的例子,希望能获得提高,不积跬步无以至千里///////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////1.BroadcastTest:测试Broadcast,原创 2015-04-27 10:02:27 · 513 阅读 · 0 评论 -
spark:学习杂记--23
ID1 sendoh akriaID2 ximen luxiaofengID3 sendoh ximenID4 yegucheng shedoh根据关键字从新排序:package fffimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}impo原创 2015-04-09 22:33:19 · 468 阅读 · 0 评论 -
spark:随机学习杂记--21
这两天休息了一下,买的书也到了···这两天看了一遍spark官方的文档,发现原来视频上老师讲的知识大部分就是官方文档上案例和解析,下面总结着写一下在以前老师没讲过的知识。1.LiMing LiLei HanMeiMei Poly Sendoh Akria XiMen---------------------------------------------------原创 2015-04-05 22:43:41 · 575 阅读 · 0 评论 -
spark:学习杂记Hbase--33
////////////////////////////////////////////////////////////////////////////////////1. Write a function to sumall integers between two given numbers a and b: def sumInts(a: Int, b: Int): Int原创 2015-04-30 23:12:40 · 541 阅读 · 0 评论 -
spark:仿写案例--32
1.Cassandra:测试Cassandra数据库,Cassandra是由Facebook开发后再开源的/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////原创 2015-04-27 11:32:14 · 420 阅读 · 0 评论 -
spark:仿写案例--31
1.HBaseTest:分布式开源数据库,测试HBasepackage llfimport org.apache.spark._import org.apache.spark.{SparkContext, SparkConf}import org.apache.hadoop.hbase.client.HBaseAdminimport org.apache.hadoop.hbase.{原创 2015-04-27 10:54:22 · 383 阅读 · 0 评论 -
spark:学习杂记--29
从前两天开始跟着写spark官网上的例子,期间遇到很多函数和方法,这篇博客基本上都是从网上各位牛人那里东拼西凑copy过来的,在写例子的时候遇到不会的函数或方法就去google或百度然后贴在这里为读懂例子做准备···接下来会写一些spark的例子以及我个人对例子中语句的理解1.mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有原创 2015-04-23 23:49:43 · 649 阅读 · 0 评论 -
spark:学习杂记+快速排序--26
数组:Array,列表:List,集:Set,映射:Map1.列表缓存:ListBuffer,数组缓存:ArrayBuffer2.队列:Queue···先进先出import scala.collection.immutable.Queueval empty = new Queue[Int]val has1 = empty.enqueue(1) //为不可变队列添加元素Queue(1原创 2015-04-17 23:36:39 · 600 阅读 · 0 评论 -
spark:学习杂记+如何求丢失的数据例子--25
列表的使用:1.计算长度.length scala> list(1, 2, 3).length res: Int = 32.init方法:返回除了最后一个元素之外余下的列表3.last方法:返回列表的最后一个元素4.reverse方法:反转列表5.前缀与后缀: take方法:返回列表前2个元素 drop方法:返回列表从原创 2015-04-14 21:46:40 · 741 阅读 · 0 评论 -
spark:sortByKey按年龄排序--20
仙道彰 男 1990 计算机樱木花道 男 1989 软件流川枫 男 1990 网络三井寿 男 1991 计算机彩子 女 1992 网络晴子 女 1993 计算机仙草 男 1995 计算机假设一个数据文件包含上述信息,通过排序sortByKey按年龄从大到小排序:package mainimport org.apache.log4j.{Level, Logger}原创 2015-04-02 21:43:40 · 977 阅读 · 0 评论 -
spark:Idea编译程序打jar包部署到spark运行方法--19
感觉没个老师带着学spark真是举步维艰啊···一个问题能卡了2天才解决···写一下这俩天的收获吧···//////////////////////////打包1.Project Structure2.Artifacts --- +jar --- From module with··· --- main class --- ok3.class paths 要填??/usr/local/s原创 2015-03-30 23:51:23 · 2480 阅读 · 0 评论 -
spark:机器硬件的问题--18
现在有个问题不能解决,我在linux虚拟机下部署IDEA 编译同时要启动hadoop和spark 但是卡的什么都动不了···要是IDEA编译放在win7上又无法实时的交互数据···是不是只能在win7上编译,然后把jar包导入虚拟机···原创 2015-03-28 22:37:14 · 391 阅读 · 0 评论