自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Memory of Mr.Snail

好好学习,天天向上

  • 博客(13)
  • 资源 (2)
  • 收藏
  • 关注

原创 [1.0.1]交互式电商平台架构与数据流转

参考从hadoop到spark架构实践 中华石杉场景本项目是基于怎样的一个技术架构,以及大致的数据流转? 好的,先了解一下项目开发流程。Snail认为站在开发者的角度,一个正规的完整的大数据项目(普通J2EE项目也类似)流程大致分为三个阶段:1、架构设计阶段数据调研 分析平台要基于的底层的基础数据:分析表结构,弄清楚表之间的关系。表中的数据的更新粒度,一个小时更新一次,还是一天更新一次。每天

2016-06-30 19:26:33 2697

翻译 提交spark作业:如何在java中执行shell脚本

参考java运行shell脚本方法示例 中华石衫 java1.6 API 文档场景一. 怎么在J2EE后端调用并执行spark作业呢? 执行spark作业通常用一个封装了./spark-submit命令及相关执行参数的shell脚本,例如:/home/hadoop/spark-1.6.0-bin-hadoop2.6/bin/spark-submit \--class cool.pengyc

2016-06-30 16:24:22 6947

原创 [2.5]详解spark sql用户自定义函数:UDF与UDAF

参考Spark官网 王家林DT大数据梦工厂场景上一篇文章已经介绍spark sql的窗口函数,并且了解到spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很负责,特别负责,内置函数hold不住,所以要spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了,我满足不了你,自己定义一个sql函数,该怎么折腾就怎么折腾! 例如,mysql数

2016-06-29 21:58:38 13581 2

原创 [2.4]以row_number为例解读spark sql的窗口函数

参考spark官网 王家林DT大数据梦工厂场景将本地文件toNGroup.txt中的内容:hadoop@master:~/resource$ cat toNGroup.txt hadoop 29hadoop 87hadoop 39hadoop 27hadoop 88spark 29spark 90spark 27spark 84spark 92hadoop@master:~/

2016-06-29 20:36:33 13160

原创 [1.1.0]工具类之SparkUtils的编写

场景将各业务子模块公共的Spark代码抽取到一个工具类中,主要包括:模拟生成生产环境hive仓库中相关业务表数据,本地开发测试用 spark应用程序所要处理的业务数据量很大,往往存储在Hive仓库中;本项目涉及到的hive表有 用户访问行为表:user_visit_action 与 用户信息表 user_info。在本地进行测试写好的spark应用程序代码,需手动写代码模拟上述hive表中业务数

2016-06-28 00:08:19 2604 2

原创 [0.0.0] 大型spark项目实战

参考《Spark大型项目实战:电商用户行为分析大数据平台》- 中华石杉 DT大数据梦工厂-王家林 spark官网文档场景在项目实战中理解: 1、spark core、sql、streaming以及机器学习与图计算相关的知识点 2、性能调优化、troubleshooting与数据倾斜解决方案 当然,随便发发牢骚,关于生活。前言关于第一个spark大型项目实战1、瞎说话说Snail三个月前离职

2016-06-27 00:06:24 10687 4

原创 实战解读阿里fastjson基本操作

场景json是一种很常用的数据传输与存储格式,听说阿里的fastjson转换速度是目前各类json中最快的,本文就以fastjson为例讲解json的基本操作.知识点java bean如何转换成 json 字符串? json字符串 如何转换成 java bean ? json 字符串 如何转换成 json object ?实验代码package cool.pengych.sparker.test

2016-06-21 23:42:14 841

原创 Hive简介、安装及数据导入基本方法

参考Hive安装 王家林DT大数据梦工厂场景Hive存在的意义,怎么安装?如何把本地数据导入到Hive中来?分析简介1、Hive是分布式数据仓库,同时又是查询引擎,所以Spark SQL取代的只是Hive的查询引擎,在企业实际生产环境下Hive+SparkSQL是经典组合。 2、Hive本身是一个简单单机版本的软件,主要负责: a) 把HQL翻译成Mapper(s)-Reducer-Mappe

2016-06-16 21:46:58 885

原创 [1.5]以二次排序算法的实现为例体验spark高级排序

场景以java与scala,利用spark内置排序函数sortByKey体验二次排序算法实现。完成文件/home/pengyucheng/resource/hellospark.txt中数据的二次升序排序 - 源数据: 1,1,spark 1,3,zookeeper 1,2,akka 3,1,hadoop 3,8,zookeeper 2,1,flink排序后的数据: 1 1 s

2016-06-13 13:51:30 1062

原创 [1.0]完美解读使用IDEA开发spark应用程序及spark源码阅读环境搭建

场景第一次使用Intellij IDEA开发第一个spark应用程序?对 idea的操作相当不熟悉!听别人说spark高手更喜欢使用IDEA! 怎么在Intellij Idea导入 spark的源代码?使用 eclipse-scala阅读spark源代码相当不方便:没法在一个源文件中直接关联查询另一个源文件,必须另外从新ctrl+shift+t! 怎么编写脚本提交spark应用程序到spark集

2016-06-09 00:35:55 1750 1

原创 flume简介与监听文件目录并sink至hdfs实战

场景1. flume是什么1.1 背景  flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后

2016-06-02 17:09:32 12181

原创 [2.6]Spark SQL 操作各种数据源笔记

参考spark官网 DT大数据梦工厂 spark sql操作各种数据源的数据流转 : 各种数据源的输入 => RDD(lines) =>RDD(Rows) => DataFrame(注册临时表) => 分析与过滤(各种sql操作、机器学习等)=> RDD(Row) => 各种格式的输出场景Spark sql怎么操作各种数据源: json格式的文件、hive、mysql、hbase等

2016-06-01 17:10:19 3589

原创 基于HDFS的SparkStreaming案例实战

参考DT大数据梦工厂场景SparkStreaming监听HDFS上某一目录,并打印该目录下文件的类容实验package cool.pengych.spark.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunc

2016-06-01 16:57:37 1023

虚拟机下 Red hat linux 9 系统的安装

注:鄙人实际安装材料: 一、linux 版本:rhel-server-5.8-i386-dvd.iso。 二、VMware 版本:VMware-workstation-full-8.0.0-471780 。 本文中原作者安装linux时用到三个iso文件,这里我只用到了上面的那一个iso文件(我的这个应该是集成版,哪里有下载?直接百度rhel-server- 5.8-i386-dvd,就会有各种下载方案出来。红帽官网暂时没有找打相关下载路径,网速好慢。)。

2016-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除