spark
文章平均质量分 60
黄色沙琪玛
这个作者很懒,什么都没留下…
展开
-
SparkSQL-day81
SparkSQL转载 2016-09-01 09:49:53 · 259 阅读 · 0 评论 -
Day8:IDEA 开发spark
本内容整理来源于DT大数据梦工厂。在bin 目录下执行:./spark-submit --class cn.tan.spark.dt.WordCount --master spark://node11:7077 /home/word.jarspark jobHistory 配置:Caused by: java.lang.IllegalArgumentException:原创 2016-02-29 22:59:13 · 552 阅读 · 0 评论 -
Day20 实现TopN 排序
本文来自王家林大数据梦工厂整理实现Top N 分析:原创 2016-02-19 00:16:05 · 263 阅读 · 0 评论 -
王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”47
王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载!第47讲:Scala多重界定代码实战及其在Spark中的应用源码解析百度云:http://pan.baidu.com/s/1qWj1IHY360云盘:请输入提取码: 访问密码 7804腾讯微云:微云文件原创 2015-07-11 00:53:16 · 500 阅读 · 0 评论 -
day18:RDD持久化、广播、累加器
本文内容整理来源于大数据梦工厂:原创 2016-02-24 17:33:33 · 306 阅读 · 0 评论 -
day17:RDD案例(join、cogroup、reduceByKey、groupByKey, join cogroup
本文内容来源于DT大数据梦工厂整理,微博地址:原创 2016-02-24 17:32:32 · 1384 阅读 · 0 评论 -
day60:sparkSql
以下内容来源于DT大数据梦工厂:一:SparkSQL 与DataFrame1、 sparksql之所以是除了spark core以外最大的和最受关注的组件,原因是:a) 处理一切存储介质和各种格式的数据(同时可以方便的扩展sparksql的功能来支持更多类型的数据例如:kudu)b) spark SQL把数据仓库的设计推向了新的高度,不仅仅是无敌的计算速度(spark原创 2016-03-12 21:45:05 · 365 阅读 · 0 评论 -
day30:Master的注册机制和状态管理解密
以下内容整理来源于DT大数据梦工厂:原创 2016-03-09 08:05:07 · 789 阅读 · 0 评论 -
day47:DT大数据梦工厂性能优化day47
以下内容整理来源于DT大数据梦工厂,微博地址:优化数据结构:减少内存1、java 对象是16个字节(例如指向对象的指针等元数据信息),如果对象中只有一个int的property,则此时会占据20个字节,也就是说对象的原数据占用了大部分的空间,所有在封装数据的时候尽量不要使用对象!例如说明使用JSON格式来封装数据2、Java中的基本数据类型会自动的封箱操作,例如int会原创 2016-02-26 14:26:08 · 322 阅读 · 0 评论 -
day5:Scala隐式转换和并发编程
本文内容整理来源于大数据梦工厂:原创 2016-02-24 17:31:07 · 213 阅读 · 0 评论 -
day26:Spark Runtime(Driver、Masster、Worker、Executor)内幕
以下内容整理来源于DT大数据梦工厂:新浪微博:www.weibo.com/ilovepains/DT大数据梦工厂新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859原创 2016-03-02 23:15:33 · 1012 阅读 · 0 评论 -
day55-hive实战:
一下内容来源于:DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains原创 2016-04-30 23:18:32 · 304 阅读 · 0 评论 -
day64 Spark SQL下Parquet的数据切分和压缩内幕详解
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains Parquest类的操作 ParquestRelation源码: public class ParquetOutputFormatextends FileOutputFor原创 2016-05-16 06:42:13 · 1337 阅读 · 0 评论 -
day80sparkSQL网站搜索综合实例
目的:找出搜索平台上用户明天搜索排名前五名的产品1、原始的ETL过滤数据后产生目标数据广播的原理,过滤是发生在work2、对过滤后的目标数据进行指定条件的查询,查询条件又可能非常复杂(进行广播(广播过滤条件)),进行RDD的filter的算子;3、对于商品时分为种类的,我们在得出最终结果之前,首先会基于商品UV(对于用户访问商品的PV) 此时我们要对商品进行UV计算的话,必须原创 2016-08-30 01:06:10 · 607 阅读 · 0 评论 -
day83-透彻讲解使用Java方式实战Spark Streaming开发
import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.原创 2016-09-11 16:11:47 · 6124 阅读 · 0 评论 -
day71:Spark SQL窗口函数解密与实战
Spark SQL窗口函数解密与实战sparkSQL 窗口函数解析sparkSQL窗口函数实战package cn.db.scala.sparksqlimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveContext/** * Created by ptbx on原创 2016-06-05 23:35:35 · 576 阅读 · 0 评论 -
day84:StreamContext、DStream、receiver
一下内容来源于DT大数据梦工厂:StreamingContext * AJava-friendly version of[[org.apache.spark.streaming.StreamingContext]]which is the main* entry point for Spark Streaming functionality. It provides m原创 2016-06-10 16:54:51 · 892 阅读 · 0 评论 -
day70:Spark SQL内置函数解密与实战
Spark on hive:将hive的元数据当作一个数据源Hive on spark:(未来一个趋势)Hive 本来的计算框架是mr,换成spark 来计算目前企业及大数据spark开发的时候绝大多数情况下采用hive 作为数据仓库的;spark提供了Hive的支持功能,spark通过hiveContext 可以直接操作hive 的数据;基于HiveContextk可以使用s原创 2016-06-05 17:19:06 · 1213 阅读 · 0 评论 -
day63-Spark SQL下Parquet内幕深度解密
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:sparkSQL 下的Parquet意义再思考存储空间包括:内存和磁盘,计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,parquet则是整个大数据时代文件存储格式的事实标准。1、 速度原创 2016-05-08 13:40:33 · 1383 阅读 · 0 评论 -
day62-Spark SQL下的Parquet使用最佳实践和代码实战
一下内容来源于DT大数据梦工厂:DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsSparkSQL下的Parquet的使用、实践一、 Spark SQL下的parquest最佳实践1、过去整个业界对大原创 2016-05-08 13:34:46 · 1430 阅读 · 0 评论 -
day61-Spark SQL数据加载和保存内幕深度解密实战
Spark SQL加载数据SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型: SQLContext源码:load 和sa原创 2016-05-08 13:13:32 · 1708 阅读 · 0 评论 -
使用Java实战RDD与Dataframe动态转换
import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.sp原创 2016-05-07 22:49:29 · 9476 阅读 · 4 评论 -
day65-Spark SQL下Parquet深入进阶
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains SparkSQL 下的Parquet 序列化SparkSql 下的Parquet源码解读SparkSql下Parquet总结 Parquet下的Bolck块,Cloun原创 2016-05-16 06:43:43 · 933 阅读 · 0 评论 -
day16:RDD实战(RDD基本操作实战及Transformation流程图)
以下内容整理来源于DT大数据梦工厂:原创 2016-02-23 06:42:32 · 530 阅读 · 0 评论 -
day15 RDD 内幕解析
本文整理自大数据梦工厂:实现计算2数和object RDDBaseOnCollection { def main (args: Array[String]) { val conf = new SparkConf() conf.setAppName("....RDDBaseon Collection") conf.setMaster("原创 2016-02-22 23:41:45 · 253 阅读 · 0 评论 -
day21:从Spark架构中透视Job
本文整理来源于DT大数据梦工厂:原创 2016-02-29 12:56:49 · 446 阅读 · 0 评论 -
Day8使用IDEA 开发spark
下载IDEA 后,安装scala下载spark 安装包,下载地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.6.0-bin-hadoop2.6.tgz 解压后将spark jar 文件导入到eclisp 中的jar依赖。如图原创 2016-01-28 09:17:09 · 304 阅读 · 0 评论 -
day9 IDEA 下spark 开发
目的:步骤1:原创 2016-01-30 08:13:18 · 241 阅读 · 0 评论 -
第四 for 定义匿名函数
def addA(x: Int) = x +100 val as = (x: Int) => x + 100 println(as(2)+"...as...")函数定义如果有返回值需要定义 def fc(n: Int) : Int = if (n 可以使用可变参数 def contents(rs: Int*)={ var results = 0 for (转载 2016-01-10 22:42:53 · 265 阅读 · 0 评论 -
第二: scala 方法定义
def dowhiles() { var line = "" do { line = readLine() println(line + "::line") } while ( line != "") }def loopun(x: Long, y: Long) : Long ={ var a = x var转载 2016-01-10 17:59:43 · 462 阅读 · 0 评论 -
scala 中map
// 1,2,3,4,5 /* val arr = Array(1, 2, 3, 4, 5) for (ele <- arr){ println(ele) }*/ /* val m1 = Map("name" -> "zhangsan", "age" -> 20) for ((k,v) <- m1){ println("key is:"原创 2016-01-10 15:31:44 · 320 阅读 · 0 评论 -
scala 第一天作业
实现输出负数以后的数val a = Range(-4, 4) var firstPre = false a.filter { case x if x firstPre = !firstPre ; true case x if x false case _ => true }.foreach(println)转载 2016-01-14 00:00:19 · 519 阅读 · 0 评论 -
7scala类的属性和对象私有
如果声明了一个属性,那么scala 会自动生成setter, getter方法.默认自己生成class Person { private var age = 0 def increment(){age += 1} def current = age}class Student{ var age = 20}object SparkAPI{ def main(args: A转载 2016-01-17 21:34:29 · 255 阅读 · 0 评论 -
solr空间搜索实现附近酒店的搜索
solr空间搜索实现附近酒店的搜索现在移动开发中越来越多的App都有周边搜索,有找附近的人的,附近的酒店,附近的餐馆的。接下来我们就来讲一下强大的Solr来帮我们构建周边搜索之酒店搜索。1 下载 Solr 3.6.2 下载地址:http://www.apache.org/dyn/closer.cgi/lucene/solr/3.6.2 提取apa转载 2015-07-14 16:55:13 · 1021 阅读 · 0 评论 -
day22:RDD的依赖关系彻底解密
本文整理来源于DT大数据梦工厂:原创 2016-02-29 12:55:43 · 739 阅读 · 0 评论 -
day49:性能优化5
以下内容来源于DT大数据梦工厂:1、数据本地性2、RDD自定义一、性能优化之数据本地性数据本地性是对分布式系统是一件 最为重要的事情(之一),程序包含代码和数据2部分,单机版本一般情况下很少数据本地性的问题(因为数据在本地)。但是由于数据本地有PROCESS_LOCAL和NODE_LOCAL之分。所以我们还是尽量的让数据处于PROCESS_LOCAL。例如PHP 现在都原创 2016-03-02 20:20:50 · 335 阅读 · 0 评论 -
Day19 实现二次排序
本文来自王家林大数据梦工厂整理 分别用java 和scala 实现二次排序分析:// 按照order 和Serializable 实现自定义排序的key// 将要进行二次排序的文件加载进来生成(key, value) 类型的RDD//使用sortBykey 基于自定义的key 进行排序//去除掉排序的值,保留排序的结果原创 2016-02-19 00:14:58 · 250 阅读 · 0 评论 -
day14 RDD 揭秘
本内容整理来源于DT大数据梦工厂:http://weibo.com/ilovepains1、基于数据集的处理工作:从物理设备上加载数据,然后操作数据,然后在写入物理存储设备,基于数据流的方式不能够复用曾经的结果或者查询中间计算2、不适应上面场景:不适合大量迭代(每一步对数据执行相似的函数); 交互式查询需要将每次的数据查询都读写磁盘然后3、RDD 是基于工作集,但是有工作流原创 2016-02-22 21:47:50 · 281 阅读 · 0 评论 -
spakr 性能优化:钨丝计划内幕
以下内容整理来源于DT大数据梦工厂:原创 2016-03-07 21:48:44 · 438 阅读 · 1 评论 -
day25:Spark Sort-Based Shuffle内幕工作机制、案例实战、源码剖析、优缺点及改进方式
以下博客整理来源于DT大数据梦工厂:一:为什么需要Sort-Based shuffle1、shuffle 一般包含2个阶段任务:第一部分,产生Shuffle数据的阶段(Map阶段,需要实现ShuffleManager 中的getWriter来写数据,可以通过blockManager将数据写入、Memory,Disk,Tachyon都可以,也可以写副本(例如想非常快的shuffle此时可以考原创 2016-03-06 22:43:18 · 653 阅读 · 0 评论