大数据生态圈
文章平均质量分 63
包含zookeeper/HDFS/YARN/Flink/Hive/Spark/HBase/ElasticSearch等产品组件的大数据生态圈,愿我趟过的坑能让你少走一些弯路。
田小雨
厚积才能薄发!自己选择的路,再苦再累也要坚持走下去
展开
-
搜索技术发展史
宏观而言,搜索引擎的发展经历了五个阶段和两大分类。五个阶段分别是FTP文件检索阶段、分类目录导航阶段、文本相关性检索阶段、网页链接分析阶段和用户意图识别阶段。如下:FTP文件检索 该阶段的搜索引擎只检索多个FTP服务器上存储的文件,代表作是Archie。用户搜索文件时需要输入精确的文件名来搜索查找,搜索引擎会告诉用户从哪一个FTP地址可以下载被搜索的文件。分类目录导航阶段 该阶段的搜索引擎就是一个导航网站,网站中都是网址的分类陈列,用户在互联网上常用的网址在这里...原创 2021-12-23 17:49:01 · 2518 阅读 · 0 评论 -
元数据管理与数据质量保障
元数据管理元数据分为业务元数据、技术元数据和操作元数据及管理元数据,业务元数据知道技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。元数据与数据的对应关系如下表所示: 元数据 数据 业务元数据 (定义和业务相关数据的信息) 数据指标、数据字典、数据代码、数据安全、数据质量等 技术元数据 物理模型(关系型数据库物理模型、NoSQL数据库存储模型等)原创 2021-11-29 11:40:13 · 4407 阅读 · 0 评论 -
Hadoop 1.0 到 Hadoop 3.0版本功能概述
2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来,成为一套完整独立的软件,起名为HadoopHadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛.原创 2021-11-22 19:04:02 · 2294 阅读 · 0 评论 -
数据中台必备的“五大”核心能力
结合以往我们再数据治理中积累的经验,我们认为数据数据中台必须具备“盘”、“规”、“整”、“用”以及价值变现的五大核心能力。1.盘 随着金融机构业务多元化发展,机构内部存在大量系统、应用以及功能的重复性、烟囱式建设,导致巨大的数据资源、计算资源、人力资源的浪费。同时组织壁垒也导致数据孤岛的出现,使得内、外部数据难以全局规划。而数据作为资产,为了合理利用资产,就需要进行数据盘点,体现内部数据分布现状与外部数据收集情况,规划数据资产的构成,打通异构数据,统一外部数据采集,理清家底。...原创 2021-11-15 15:39:13 · 5362 阅读 · 0 评论 -
数据中台建设的价值及数据中台架构
数据中台建设的价值架构 数据中台的终极使命是赋予数据资产价值变现的能力,无论是通过业务赋能的形式隐性变现,还是通过数据服务公开交易的直接变现。它们都需要一个很重要的基础条件“数据资产化”。 数据中台做为金融机构各业务系统的数据提供方,通过自身的数据处理能力以及业务对数据的不断供给(业务数据化过程),形成一套持续运行的、不断完善的数据资产体系(数据资产化过程)。当金融机构在面对业务多元化挑战,需要构建新的前台应用时,数据中台可以快速地提供数据服务(资产服务化过程),灵敏地响应金融机构多元化...原创 2021-11-14 20:49:38 · 17335 阅读 · 1 评论 -
金融企业数字化中台建设全景图
中台是否可以包治百病? 很多企业期望中台能够把业务增长慢、企业运作效率低、组织架构臃肿、缺乏创新等问题都解决,幻想着中台战略短期内一步到位,长期能够包治百病,真做起来的时候才发现无从下手或者缺乏清晰目标,最终很难落地。 中台并不是什么都做,中台的建设应该采用产品化思维,要清晰地定义中台的边界,明确中台在企业架构、应用架构中的位置,明确中台上下游中与其他系统的关系,要提供哪些基本的基础服务于服务能力,要对接哪些能力,同时为谁服务,也需要明确建设的目标及考核指标。 中台...原创 2021-11-13 16:57:02 · 1181 阅读 · 0 评论 -
数字化转型的本质:“研产供销服”各环节的敏捷化
数字化转型是企业通过“研产供销服”各环节的数字化,实现大规模的个性化产品制造,即通过市场数字化手段与产品数字化手段,洞察客户需求,快速完成产品的定义与验证,缩短产品研发时间,减少试错成本;通过生成过程的数字化,实现制造的横向集成与纵向集成,提高个性化生成的能力,提高产品质量;通过供应链的数字化,建立完备、高效的物流与供应链体系,实现资源整合,提高效率,防止风险;通过营销的数字化,连接客户与企业,构建客户的全渠道触达,实现精准互动与交易,让营销资源的利用更加高效,推广成本降低;通过客户服务的数字化...原创 2021-11-08 12:04:14 · 6576 阅读 · 1 评论 -
hive下慎用insert overwrite用法 和 随机函数做为bucket
当前hive社区已到3.1.2版本,较多hive用户还不太清楚在0.14版本之后开始已支持事务,对于批处理任务中要用到update/delete/merge into的场景,非常受用。当前较多hive用户在做数据更新时还在用insert overwrite的用法,可以想象一下,如果是高并发的情况下,可能会出现什么情况? 在数仓/集市设计的过程中,表结构的设计尤为重要。对于hive来说,分区、分桶设计的好坏,可以直接影响批处理任务的执行效率,分桶如使用不当,则可能出现数据异常的情况,后果...原创 2021-11-01 16:30:43 · 1617 阅读 · 0 评论 -
HBase场景优化之regions过多、region过大
# Regions过多优化 通过OGG接入大量小表或者某些场景下,会出现HBase集群regions“过多”的情况,在某集群上有看到不到10个节点的集群,regions将近1万,其中一张不到1TB的表,有将近4000个region。 一般情况下,单个region的大小建议控制在5GB以内,可以通过参数hbase.hregion.max.filesize来设置,单个regionserver下的regions个数控制在200个以内。regions过多会导致集群不堪重负、regionserve...原创 2021-10-27 11:40:57 · 2381 阅读 · 0 评论 -
hive如何生成rowid
hive没有像oracle中rowid的用法,那么,如果用户想要对数据按照客户id进行排序,生成一个rowid,该如何实现呢?原创 2016-05-07 20:25:43 · 5148 阅读 · 0 评论 -
Hive之简单查询不启用MapReduce
如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下:01hive> SELECT id, money FROM m limit 10;02Total MapReduce jobs = 103Launching原创 2015-07-06 18:16:28 · 4148 阅读 · 0 评论 -
Hive控制Reduce个数
1. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec.reducers.max(每个任务最大的reduce原创 2015-06-15 17:53:29 · 3241 阅读 · 0 评论 -
Spark源码解读-JOB的提交与执行
本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。1. 下载spark binary 0.9.12. 安装scala3. 安装sbt4. 安装java启动spark-shell单机模式运行,即local模式local模式运行非常简单,只要原创 2015-06-13 18:39:31 · 869 阅读 · 0 评论 -
HBase Shell的基本用法
hbase提供了一个shell的终端给用户交互。使用命令hbaseshell进入命令界面。通过执行 help可以看到命令的帮助信息。以网上的一个学生成绩表的例子来演示hbase的用法。 name grad course math art原创 2015-06-12 17:39:01 · 916 阅读 · 0 评论 -
Hadoop命令大全
1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir这条命令会显示作业的细节信息,失败和终止的任务细节。原创 2015-05-21 15:44:21 · 612 阅读 · 0 评论 -
Hadoop简介及集群的安装
Hadoop简介及安装过程概述:Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的hadoop为用户提供了系统底层细节透明的分布式基础框架。HDFS的高容错性、高伸缩性等优点允许用户将Had原创 2015-05-20 14:36:44 · 798 阅读 · 0 评论 -
MapReduce编程之倒排索引
任务要求://输入文件格式18661629496 11013107702446 1101234567 1202345678 120987654 1102897839274 18661629496//输出文件格式格式11018661629496|13107702446|987654|18661629496|13107702446原创 2015-06-12 17:30:15 · 1537 阅读 · 1 评论 -
Apache Pig的前世今生
最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Apache 猪的笔记,看起来Apache的猪,比较厉害原创 2015-06-12 16:08:14 · 737 阅读 · 0 评论 -
MapReduce编程之WordCount
//mapreduce程序import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.原创 2015-06-12 16:31:31 · 892 阅读 · 0 评论 -
系统监控软件Ganglia的安装
1、实验环境 Centos6.42、安装rrdtool(注rrdtool-1.5.3不支持3.6.1)12#安装ganglia相关包yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel rpmbu原创 2015-06-18 14:44:17 · 1192 阅读 · 0 评论 -
推荐引擎mahout安装与配置
一、硬件环境操作系统:Linux ubuntu-13.04-desktop-i386jdk安装版本:jdk-7u51-linux-i586Hadoop版本:Hadoop-1.1.1(一个Namenode,三个Datanode部署)二、安装步骤在Mahout安装之前读过几篇有关机器学习的文章,面对协同过滤、分类聚类等算法的讲解我是深感无力啊,那么深奥的算法原创 2015-06-18 14:39:58 · 1143 阅读 · 0 评论 -
MapReduce编程之数据去重
数据去重主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。package com.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Config原创 2015-06-18 15:46:21 · 1171 阅读 · 0 评论 -
hadoop2.7完全分布式安装
1、安装JDK1.7+2、SSH互信免登陆3、/etc/profileHADOOP_PREFIX=/opt/hadoopJAVA_HOME=/opt/jdk1.7PATH=$PATH:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbinexport HADOOP_PREFIX PATH JAVA_HOME原创 2015-06-18 14:11:29 · 832 阅读 · 0 评论 -
Linux、hive、sqoop常用脚本
一、Linux常用脚本1.查看进程 ps -ef|grep -i tom2.SCP从远程复制到本地目录 scp root@/172.19.2.75:/home/root/full.tar.gz /home/daisy/full.tar.gz 3.查看目录 pwd 4.查看hadoop集群状态原创 2015-06-18 14:17:17 · 3000 阅读 · 0 评论 -
hive UDF自动增长列函数
1.导入Eclipse编码jar包 hadoop-auth-2.4.0.2.1.3.0-563.jar hadoop-common-2.4.0.2.1.3.0-563.jar hive-exec-0.13.0.2.1.3.0-563.jar2.代码import org.apache.hadoop.hive.ql.exec.Descrip原创 2015-06-18 14:14:56 · 1332 阅读 · 0 评论 -
hive如何应对数据倾斜
数据倾斜概念:数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。执行操作: 1原创 2015-06-20 11:01:42 · 4420 阅读 · 0 评论 -
hive之实现列转行
样例:select * from tab1 limit 10;结果:id numa 1a 2a 3b 4b 3·····现在想实现把id一样的数据在一条数据中展现。结果示例:a 1 2 3b 4 3 实现方案有多种,在Oracle中LISTAGG函数可以满足原创 2015-06-20 16:50:00 · 9103 阅读 · 1 评论 -
Spark学习笔记之浅释
概述: Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:Algorithm Machine People,算法、机器、人) Spark是一种与Hado原创 2015-06-20 10:54:28 · 1011 阅读 · 0 评论 -
MapReduce程序之实现单表关联
设计思路 分析这个实例,显然需要进行单表连接,连接的是左表的parent列和右表的child列,且左表和右表是同一个表。 连接结果中除去连接的两列就是所需要的结果——"grandchild--grandparent"表。要用MapReduce解决这个实例,首先应该考虑如何实现表的自连接;其次就是连接列的设置;最后是结果的整理。 考虑到MapReduc原创 2015-06-20 16:46:37 · 1807 阅读 · 0 评论 -
hive-内部表与外部表的区别
本文以例子的形式介绍一下Hive内表和外表的区别。例子共有4个:不带分区的内表、带分区的内表、不带分区的外表、带分区的外表。1 不带分区的内表#创建表create table innerTable(id int,name string) row format delimited fields terminated by '|';(show tables发现没有innerTabl原创 2015-06-20 10:58:22 · 2209 阅读 · 0 评论 -
hive内置函数大全
======================================一、关系函数1.等值比较:= 语法:A=B操作类型:所有基本类型2.不等值比较: 语法:A 操作类型:所有基本类型3.小于比较: 语法:A操作类型:所有基本类型4.空值判断:IS NULL 语法:a is null操作类型:所有类型5.非原创 2015-06-23 09:35:25 · 7547 阅读 · 0 评论 -
hive如何处理多分隔符数据
问题描述: 大数据维稳需求中,客户提供的测试数据为多个字符做分隔符('|#'),在pig中会直接报错,hive中只认第一个分隔符。由于数据量比较大(160G),在文本中替换成单个字符分隔符已不现实,以下提供两个方案解决这一问题。 样例数据110|#警察120|#医院方案1:利用hive自带的序列化/反序列化的方式RegexSe原创 2015-06-23 09:37:54 · 6766 阅读 · 0 评论 -
Hadoop集群性能优化一
挺喜欢这句话:“坚持,是基于 你对某件事的热爱,才能有动力坚持下去。在学习的过程中,需要战胜自己的惰性和骄傲!”好了,下面说下如何提升集群的性能: 在硬件方面,第一,商业硬件并不等同于低端硬件。低端机器常常使用便宜的零部件,其故障率远高于更昂贵的机器。当用户管理几十台、上百台甚至几千台机器时,便宜的零部件故障率更高,导致维护成本更高;第二,不推荐使用大型数据库级别的原创 2015-06-23 09:40:25 · 3486 阅读 · 0 评论 -
MapReduce编程之实现多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表样本如下:factory:factoryname addressedBeijing Red Star 1Shenzhe原创 2015-06-23 10:40:12 · 6543 阅读 · 1 评论 -
hive 如何处理科学计数法
说明:Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,这样搞的挺烦。举例说明样例数据:select lte_drop_rate from t_table limit 10;输出结果:5.0E-47.1E-45.41E-4......处理方案:select (case原创 2015-06-26 17:38:18 · 13531 阅读 · 0 评论 -
SSH无密码登陆配置
摘录一在192.168.42.142机器上1)运行:ssh-keygen -t rsa2)然后拍两下回车(均选择默认)3)运行: ssh-copy-id -i /root/.ssh/id_rsa.pub [email protected]或普通用户:ssh-copy-id NAME@IP4)再输入163机器上的root密码原创 2015-06-12 16:21:09 · 772 阅读 · 0 评论