2016年06月_一方架构

10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 [1.0.1]交互式电商平台架构与数据流转

参考从hadoop到spark架构实践中华石杉场景本项目是基于怎样的一个技术架构，以及大致的数据流转？好的，先了解一下项目开发流程。Snail认为站在开发者的角度，一个正规的完整的大数据项目（普通J2EE项目也类似）流程大致分为三个阶段：1、架构设计阶段数据调研分析平台要基于的底层的基础数据：分析表结构，弄清楚表之间的关系。表中的数据的更新粒度，一个小时更新一次，还是一天更新一次。每天

2016-06-30 19:26:33 2697

翻译提交spark作业：如何在java中执行shell脚本

参考java运行shell脚本方法示例中华石衫 java1.6 API 文档场景一. 怎么在J2EE后端调用并执行spark作业呢？执行spark作业通常用一个封装了./spark-submit命令及相关执行参数的shell脚本，例如：/home/hadoop/spark-1.6.0-bin-hadoop2.6/bin/spark-submit \--class cool.pengyc

2016-06-30 16:24:22 6947

原创 [2.5]详解spark sql用户自定义函数:UDF与UDAF

参考Spark官网王家林DT大数据梦工厂场景上一篇文章已经介绍spark sql的窗口函数，并且了解到spark sql提供了丰富的内置函数供猿友们使用，辣为何还要用户自定义函数呢？实际的业务场景可能很负责，特别负责，内置函数hold不住，所以要spark sql提供了可扩展的内置函数接口：哥们，你的业务太变态了，我满足不了你，自己定义一个sql函数，该怎么折腾就怎么折腾！例如，mysql数

2016-06-29 21:58:38 13581 2

原创 [2.4]以row_number为例解读spark sql的窗口函数

参考spark官网王家林DT大数据梦工厂场景将本地文件toNGroup.txt中的内容：hadoop@master:~/resource$ cat toNGroup.txt hadoop 29hadoop 87hadoop 39hadoop 27hadoop 88spark 29spark 90spark 27spark 84spark 92hadoop@master:~/

2016-06-29 20:36:33 13160

原创 [1.1.0]工具类之SparkUtils的编写

场景将各业务子模块公共的Spark代码抽取到一个工具类中，主要包括:模拟生成生产环境hive仓库中相关业务表数据，本地开发测试用 spark应用程序所要处理的业务数据量很大，往往存储在Hive仓库中;本项目涉及到的hive表有用户访问行为表：user_visit_action 与用户信息表 user_info。在本地进行测试写好的spark应用程序代码，需手动写代码模拟上述hive表中业务数

2016-06-28 00:08:19 2604 2

原创 [0.0.0] 大型spark项目实战

参考《Spark大型项目实战：电商用户行为分析大数据平台》- 中华石杉 DT大数据梦工厂-王家林 spark官网文档场景在项目实战中理解： 1、spark core、sql、streaming以及机器学习与图计算相关的知识点 2、性能调优化、troubleshooting与数据倾斜解决方案当然，随便发发牢骚，关于生活。前言关于第一个spark大型项目实战1、瞎说话说Snail三个月前离职

2016-06-27 00:06:24 10687 4

原创实战解读阿里fastjson基本操作

场景json是一种很常用的数据传输与存储格式，听说阿里的fastjson转换速度是目前各类json中最快的，本文就以fastjson为例讲解json的基本操作.知识点java bean如何转换成 json 字符串？ json字符串如何转换成 java bean ? json 字符串如何转换成 json object ?实验代码package cool.pengych.sparker.test

2016-06-21 23:42:14 841

原创 Hive简介、安装及数据导入基本方法

参考Hive安装王家林DT大数据梦工厂场景Hive存在的意义，怎么安装？如何把本地数据导入到Hive中来？分析简介1、Hive是分布式数据仓库，同时又是查询引擎，所以Spark SQL取代的只是Hive的查询引擎，在企业实际生产环境下Hive+SparkSQL是经典组合。 2、Hive本身是一个简单单机版本的软件，主要负责： a) 把HQL翻译成Mapper(s)-Reducer-Mappe

2016-06-16 21:46:58 885

原创 [1.5]以二次排序算法的实现为例体验spark高级排序

场景以java与scala，利用spark内置排序函数sortByKey体验二次排序算法实现。完成文件/home/pengyucheng/resource/hellospark.txt中数据的二次升序排序 - 源数据： 1，1，spark 1，3，zookeeper 1，2，akka 3，1，hadoop 3，8，zookeeper 2，1，flink排序后的数据： 1 1 s

2016-06-13 13:51:30 1062

原创 [1.0]完美解读使用IDEA开发spark应用程序及spark源码阅读环境搭建

场景第一次使用Intellij IDEA开发第一个spark应用程序？对 idea的操作相当不熟悉！听别人说spark高手更喜欢使用IDEA！怎么在Intellij Idea导入 spark的源代码？使用 eclipse-scala阅读spark源代码相当不方便:没法在一个源文件中直接关联查询另一个源文件，必须另外从新ctrl+shift+t! 怎么编写脚本提交spark应用程序到spark集

2016-06-09 00:35:55 1750 1

场景1. flume是什么1.1 背景　　flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后

2016-06-02 17:09:32 12181

原创 [2.6]Spark SQL 操作各种数据源笔记

参考spark官网 DT大数据梦工厂 spark sql操作各种数据源的数据流转 : 各种数据源的输入 => RDD(lines) =>RDD(Rows) => DataFrame(注册临时表) => 分析与过滤（各种sql操作、机器学习等）=> RDD(Row) => 各种格式的输出场景Spark sql怎么操作各种数据源： json格式的文件、hive、mysql、hbase等

2016-06-01 17:10:19 3589

原创基于HDFS的SparkStreaming案例实战

参考DT大数据梦工厂场景SparkStreaming监听HDFS上某一目录，并打印该目录下文件的类容实验package cool.pengych.spark.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunc

2016-06-01 16:57:37 1023

虚拟机下 Red hat linux 9 系统的安装

注：鄙人实际安装材料：一、linux 版本：rhel-server-5.8-i386-dvd.iso。二、VMware 版本：VMware-workstation-full-8.0.0-471780 。本文中原作者安装linux时用到三个iso文件，这里我只用到了上面的那一个iso文件（我的这个应该是集成版，哪里有下载？直接百度rhel-server- 5.8-i386-dvd，就会有各种下载方案出来。红帽官网暂时没有找打相关下载路径，网速好慢。）。

2016-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Memory of Mr.Snail