2018年12月_zealscott

原创 Giraph配置及使用

环境配置Hadoop配置这里使用Hadoop2.5.1进行配置，可以参考这里。查看版本号运行Hadoop./hadoop-2.5.1/sbin/start-dfs.sh查看是否成功Giraph配置下载Giraphcd /usr/localsudo git clone https://github.com/apache/giraph.gitsudo chown -R ha...

2018-12-25 10:21:40 1018

原创分布式图处理系统--Pregel

介绍分布式图处理系统–Pregel以及其开源实现–Giraph图数据处理简介图数据的应用图数据数据本身以图的形式呈现社交网络传染病传播途径交通路网某些非图结构的数据，也可以转换为图模型后进行处理网页链接机器学习训练数据关联性分析图数据结构表达了数据之间的关联性通过获得数据的关联性，抽取有用的信息购物通过为购物者之间的关系建模，就能很快找到口味相似的...

2018-12-24 10:20:15 2162

原创批流融合系统-SparkV2/Beam

介绍目前还在推进的批流融合系统-SparkV2/BeamSparkV2回顾Feature在第一代的Spark Streaming系统中，其主要特点为：以批处理核心，使用micro-batch模型将流计算转换为批处理流计算和批处理API可以互用DStream（特殊的RDD)RDDSpark Streaming局限性Spark streaming难以处理的需求Eve...

2018-12-23 20:51:30 1021

原创 Flink编程练习（二）

Map班级学生成绩的随机生成输入：本班同学的学号输出：<学号，成绩>数据准备首先需要一个stuID.csv文件，每一列为一个学号：然后将文件放入HDFS中：hdfs dfs put stuID.csv input编写程序import org.apache.flink.api.common.functions.MapFunction;impo...

2018-12-18 08:17:23 2245

原创 Flink编程练习（一）

Flink编程练习，NYC出租车数据环境配置本项目参考这里，setup。首先确保已经下载好flink依赖，并从Github下载代码。下载依赖数据，这里依赖的是纽约出租车数据，可以使用命令行下载：wget http://training.data-artisans.com/trainingData/nycTaxiRides.gzwget http://training.da...

2018-12-11 09:57:37 1424

原创 OLTPBenchmark配置及OLTP性能调优

配置OLTPBenchmark并进行性能调优安装依赖PostgreSQL首先安装PostgreSQL，本测试系统为Ubuntu，请参考这里。您可以通过psql像postgres用户sudo一样运行单个命令来完成此操作，如下所示：sudo -u postgres psql这会将你直接登录到Postgres中，而不需要中间的bashshell。同样，您可以键入以下命令退出交互式Pos...

2018-12-07 10:33:42 1401

原创 Flink安装及使用

本地部署安装在官网安装Flink，并解压到/usr/local/flinksudo tar -zxf flink-1.6.2-bin-hadoop27-scala_2.11.tgz -C /usr/localcd /usr/local修改文件名字，并设置权限sudo mv ./flink-*/ ./flinksudo chown -R hadoop:had...

2018-12-04 10:06:50 4199

原创 Superset使用

安装并简单使用Superset安装本实验在win10环境下完成。配置请务必安装了VS（安装了C++依赖包），且使用x64 Native Tools Command Prompt for VS 2017运行以下命令：安装虚拟环境virtualenv（需要安装Python，并配置环境变量）pip install virtualenv使用virtualenv。先在E盘建...

2018-12-02 10:09:10 710

crazy_scott的博客