- 博客(12)
- 收藏
- 关注
原创 ElasticSearch学习
https://www.imooc.com/learn/889场景: 1、海量数据分析引擎 2、站内搜索引擎 3、数据仓库 跨域处理#开启跨域访问支持,默认为falsehttp.cors.enabled: true#跨域访问允许的域名地址,(允许所有域名)以上使用正则 http.cors.allow-origin: /.*/ 分...
2018-12-18 21:28:42 110
原创 Nginx使用
Nginx比较Ubuntu 16.04安装Nginx在Ubuntu下安装Nginx有以下方法,但是如果想要安装最新版本的就必须下载源码包编译安装。 官方下载页面:http://nginx.org/en/download.htmlconfigure配置文件详解:http://nginx.org/en/docs/configure.html安装gcc g++的依赖库...
2018-12-18 21:28:31 109
原创 JDW数据仓库架构与模型
京东数据仓库背景京东数据仓库总体架构BDM:缓冲抽取过来的数据FDM:处理策略:流水表[增量表](每天只有新增,没有更新的数据,如点击流...按天分区)与拉链表()GDM:通用数据层(如商品订单等主题),明细粒度,可以查询到具体字段信息ADM:聚合数据层,按照DIM维度进行聚合,如订单类型、省市区等(不易变化的)京东数据仓库规范 ...
2018-12-18 21:28:01 2554
原创 大数据知识学习
大数据概念:以hadoop为代表,各种数据分析技术,包括以hadoop和spark为代表的基础大数据框架,涵盖实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。Haddop:实战技能:HDFS实际操作(shell/python)、MapReduce程序开发HDFS:适合大文件存储,支持TB、PB级的数据存储,并有副本策略,File-》Namenode(1 主...
2018-12-18 21:27:51 184
原创 Spark推送ES实例
import com.alibaba.fastjson.JSON;import com.google.common.collect.ImmutableMap;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.functio...
2018-12-18 21:24:38 529
原创 HIVE学习
HIVE学习HIVE简介 HIVE-MAPREDUCE HIVE-DDL\DML 数据裁剪及JOB优化 JOIN操作优化 输入输出优化 数据去重与排序 数据倾斜HIVE简介HIVE-MAPREDUCEHIVE-DDLHIVE DML数据裁剪及JOB优化JOIN操作优化输入输出...
2018-12-09 16:48:59 142
原创 ElasticSearch入门
http://localhost:9200/{ "settings":{ "number_of_shards":3, "number_of_replicas":1 }, "mappings":{ "novel":{ "properties":{ "w
2018-12-09 16:48:41 112
原创 PIG学习
一、Pig简介和Pig的安装配置 1、最早是由Yahoo开发,后来给了Apache 2、支持语言:PigLatin 类似SQL 3、翻译器 PigLatin ---> MapReduce(Spark) 4、安装和配置 (1)tar -zxvf pig-0.17.0.tar.gz -C ~/training/ (2)设置环境...
2018-12-09 16:48:26 295
原创 Sqoop & Flume
一、数据采集引擎 1、准备实验环境: 准备Oracle数据库 用户:sh 表:sales 订单表(92万) 2、Sqoop:采集关系型数据库中的数据 用在离线计算的应用中 强调:批量 (1)数据交换引擎: RDBMS <---&...
2018-12-09 16:48:09 369
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人