- 博客(62)
- 资源 (21)
- 收藏
- 关注
原创 搜索技术发展史
宏观而言,搜索引擎的发展经历了五个阶段和两大分类。五个阶段分别是FTP文件检索阶段、分类目录导航阶段、文本相关性检索阶段、网页链接分析阶段和用户意图识别阶段。如下:FTP文件检索 该阶段的搜索引擎只检索多个FTP服务器上存储的文件,代表作是Archie。用户搜索文件时需要输入精确的文件名来搜索查找,搜索引擎会告诉用户从哪一个FTP地址可以下载被搜索的文件。分类目录导航阶段 该阶段的搜索引擎就是一个导航网站,网站中都是网址的分类陈列,用户在互联网上常用的网址在这里...
2021-12-23 17:49:01 2722
原创 元数据管理与数据质量保障
元数据管理元数据分为业务元数据、技术元数据和操作元数据及管理元数据,业务元数据知道技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。元数据与数据的对应关系如下表所示: 元数据 数据 业务元数据 (定义和业务相关数据的信息) 数据指标、数据字典、数据代码、数据安全、数据质量等 技术元数据 物理模型(关系型数据库物理模型、NoSQL数据库存储模型等)
2021-11-29 11:40:13 4537
原创 Hadoop 1.0 到 Hadoop 3.0版本功能概述
2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来,成为一套完整独立的软件,起名为HadoopHadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛.
2021-11-22 19:04:02 2346
原创 数据中台必备的“五大”核心能力
结合以往我们再数据治理中积累的经验,我们认为数据数据中台必须具备“盘”、“规”、“整”、“用”以及价值变现的五大核心能力。1.盘 随着金融机构业务多元化发展,机构内部存在大量系统、应用以及功能的重复性、烟囱式建设,导致巨大的数据资源、计算资源、人力资源的浪费。同时组织壁垒也导致数据孤岛的出现,使得内、外部数据难以全局规划。而数据作为资产,为了合理利用资产,就需要进行数据盘点,体现内部数据分布现状与外部数据收集情况,规划数据资产的构成,打通异构数据,统一外部数据采集,理清家底。...
2021-11-15 15:39:13 5423
原创 数据中台建设的价值及数据中台架构
数据中台建设的价值架构 数据中台的终极使命是赋予数据资产价值变现的能力,无论是通过业务赋能的形式隐性变现,还是通过数据服务公开交易的直接变现。它们都需要一个很重要的基础条件“数据资产化”。 数据中台做为金融机构各业务系统的数据提供方,通过自身的数据处理能力以及业务对数据的不断供给(业务数据化过程),形成一套持续运行的、不断完善的数据资产体系(数据资产化过程)。当金融机构在面对业务多元化挑战,需要构建新的前台应用时,数据中台可以快速地提供数据服务(资产服务化过程),灵敏地响应金融机构多元化...
2021-11-14 20:49:38 17428 1
原创 金融企业数字化中台建设全景图
中台是否可以包治百病? 很多企业期望中台能够把业务增长慢、企业运作效率低、组织架构臃肿、缺乏创新等问题都解决,幻想着中台战略短期内一步到位,长期能够包治百病,真做起来的时候才发现无从下手或者缺乏清晰目标,最终很难落地。 中台并不是什么都做,中台的建设应该采用产品化思维,要清晰地定义中台的边界,明确中台在企业架构、应用架构中的位置,明确中台上下游中与其他系统的关系,要提供哪些基本的基础服务于服务能力,要对接哪些能力,同时为谁服务,也需要明确建设的目标及考核指标。 中台...
2021-11-13 16:57:02 1232
原创 数字化转型的本质:“研产供销服”各环节的敏捷化
数字化转型是企业通过“研产供销服”各环节的数字化,实现大规模的个性化产品制造,即通过市场数字化手段与产品数字化手段,洞察客户需求,快速完成产品的定义与验证,缩短产品研发时间,减少试错成本;通过生成过程的数字化,实现制造的横向集成与纵向集成,提高个性化生成的能力,提高产品质量;通过供应链的数字化,建立完备、高效的物流与供应链体系,实现资源整合,提高效率,防止风险;通过营销的数字化,连接客户与企业,构建客户的全渠道触达,实现精准互动与交易,让营销资源的利用更加高效,推广成本降低;通过客户服务的数字化...
2021-11-08 12:04:14 7079 1
原创 hive下慎用insert overwrite用法 和 随机函数做为bucket
当前hive社区已到3.1.2版本,较多hive用户还不太清楚在0.14版本之后开始已支持事务,对于批处理任务中要用到update/delete/merge into的场景,非常受用。当前较多hive用户在做数据更新时还在用insert overwrite的用法,可以想象一下,如果是高并发的情况下,可能会出现什么情况? 在数仓/集市设计的过程中,表结构的设计尤为重要。对于hive来说,分区、分桶设计的好坏,可以直接影响批处理任务的执行效率,分桶如使用不当,则可能出现数据异常的情况,后果...
2021-11-01 16:30:43 1659
原创 HBase场景优化之regions过多、region过大
# Regions过多优化 通过OGG接入大量小表或者某些场景下,会出现HBase集群regions“过多”的情况,在某集群上有看到不到10个节点的集群,regions将近1万,其中一张不到1TB的表,有将近4000个region。 一般情况下,单个region的大小建议控制在5GB以内,可以通过参数hbase.hregion.max.filesize来设置,单个regionserver下的regions个数控制在200个以内。regions过多会导致集群不堪重负、regionserve...
2021-10-27 11:40:57 2939
原创 两个字符串比较求最优算法
背景如下:1.Char1是一个由各种字母组成的字符串2.Char2是另外一个相对较短的字符串问题:什么方法能最快的查出是否所有小字符串里的字母在大字符串里都有?例如:Char1:ASQWERTYZXCVBPLKChar2:AKSECTYP方法1:对于这种操作一种幼稚的做法是轮询第二个字符串里的每个字母,看它是否同在第一个字符串里。从算法上来讲,这需要
2016-05-29 00:38:12 4711
原创 系统架构师成长之路(五)
在计算机发展的初期,“大容量”硬盘的价格还相当高,解决数据存储安全性问题的主要方法是使用磁带机等设备进行备份,这种方法虽然可以保证数据的安全,但查阅和备份工作都相当繁琐。为什么大数据集群不需要做Raid?在集群规模达到一定规模的时候,为什么需要使用DNS?
2016-05-16 11:28:00 1088
原创 系统架构师成长之路(四)
Doug Cutting,可能所有人都间接用过他的作品,他是Lucene、Nutch 、Hadoop等项目的发起人。是他,把高深莫测的搜索技术形成产品,贡献给普通大众;还是他,打造了在云计算和大数据领域里如日中天的Hadoop。
2016-05-14 16:28:19 1208
原创 系统架构师成长之路(三)
“冰山在海上之所以显得庄严宏伟,是因为他只有八分之一露出水面。”数据之所以显得能量巨大,是因为需要巨大的数据量为支撑,通过分析挖掘搞清楚水下的“八分之七”,才能得出最精华的结论。搞清楚水下,就是未来的机会所在
2016-05-10 22:49:07 5414
原创 系统架构师成长之路(二)
第一部计算机并没有操作系统。这是由于早期个人电脑的建立方式(如同建造机械计算机)与效能不足以执行如此程序。但在1947年发明了晶体管,以及莫里斯·威尔克斯(Maurice Vincent Wilkes)发明的微程序方法,使得电脑不再是机械设备,而是电子产品。系统管理工具以及简化硬件操作流程的程序很快就出现了,且成为操作系统的基础。
2016-05-08 22:39:54 3495
原创 hive如何生成rowid
hive没有像oracle中rowid的用法,那么,如果用户想要对数据按照客户id进行排序,生成一个rowid,该如何实现呢?
2016-05-07 20:25:43 5228
原创 系统架构师成长之路(一)
系统架构师是近几年来在国内外迅速成长并发展良好的一个职业,它对系统开发和信息化建设的重要性及给IT业所带来的影响是不言而喻的。做为一个职场新人,如何发展成为架构师,架构师都需要具备哪些素质?
2016-05-07 19:23:35 12488
原创 Storm计算结果是如何存放的
Storm计算的结果存放在哪里? 刚开始接触Storm的时候,往往都会有这么一个疑问:“Storm处理后的计算结果是保存在哪里呢?”是内存中还是在其它的地方? 官方给出的解释是:Storm不负责保存计算结果,计算结果由运算程序来负责,如果数据不大,可以简单的保存在内存里,可以每次更新到数据库,或者采用NoSQL来进行存储。Storm没有像s4那样
2015-07-17 18:12:46 3220
原创 Shell:value too great for base
今天定时计划删除文件没执行成功,查看了下日志,发现报错为line 38 :08:value too great for base (error token is "08")。查看了下代码:其它的忽略不计,重点看下38行............. if [ $[$(date +%d)-$keepTime] == 0 ]; then..............
2015-07-08 09:49:28 5815
原创 Hive之简单查询不启用MapReduce
如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下:01hive> SELECT id, money FROM m limit 10;02Total MapReduce jobs = 103Launching
2015-07-06 18:16:28 4182
原创 storm与hadoop的对比
hadoop 是实现了 mapreduce 的思想,将数据切片计算来处理大量的离线数据。hadoop处理的数据必须是已经存放在 hdfs 上或者类似 hbase 的数据库中,所以 hadoop 实现的时候是通过移动计算到这些存放数据的机器上来提高效率而 storm 不同,storm 是一个流计算框架,处理的数据是实时消息队列中的,所以需要我们写好一个 topology 逻辑放在那,
2015-07-02 16:41:24 1267
原创 Storm简述及集群安装
Storm 集群类似于一个 Hadoop 集群。 然而你在 Hadoop 的运行“MapReduce job” ,在storm 上你运行 “topologies (不好翻译)” 。 “job”和“topologies ”本身有很大的不同 - 一个关键的区别是,MapReduce 的工作最终完成,而 topologies 处理消息永远保持(或直到你杀了它) 。Strom 集群有主要有两类
2015-07-02 16:33:52 921
原创 查看Linux系统版本信息相关指令
Linux下如何查看版本信息, 包括位数、版本信息以及CPU内核信息、CPU具体型号等等,整个CPU信息一目了然。 1、# uname -a (Linux查看版本当前操作系统内核信息) Linux localhost.localdomain 2.4.20-8 #1 Thu Mar 13 17:54:28 EST 2003 i686 athlon i386 GNU/Lin
2015-07-01 10:53:16 813
原创 hive 如何处理科学计数法
说明:Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,这样搞的挺烦。举例说明样例数据:select lte_drop_rate from t_table limit 10;输出结果:5.0E-47.1E-45.41E-4......处理方案:select (case
2015-06-26 17:38:18 13789
原创 Linux下vsftp的安装及配置
首先下载vsftphttp://pkgs.org/download/vsftpd这里下载的版本为:vsftpd-2.2.2-12.el6_5.1.x86_64.rpm1.查看是否安装vsftp rpm -qa | grep vsftpd 如果出现vsftpd-2.0.5-21.el5,说明已经安装 vsftp 安装vsftp yum -y instal
2015-06-26 16:38:02 13367
原创 shell脚本中的数学运算
shell中的赋值和操作默认都是字符串处理,在此记下shell中进行数学运算的几个特殊方法,以后用到的时候可以来看,呵呵1、错误方法举例 a) var=1+1 echo $var 输出的结果是1+1,悲剧,呵呵 b) var=1 var=$var+1 echo $var 输出结果是1+1,依然悲剧,呵呵 2、正确方法 1)使用let
2015-06-24 15:48:12 2346
原创 MapReduce编程之实现多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表样本如下:factory:factoryname addressedBeijing Red Star 1Shenzhe
2015-06-23 10:40:12 6584 1
原创 Hadoop集群性能优化一
挺喜欢这句话:“坚持,是基于 你对某件事的热爱,才能有动力坚持下去。在学习的过程中,需要战胜自己的惰性和骄傲!”好了,下面说下如何提升集群的性能: 在硬件方面,第一,商业硬件并不等同于低端硬件。低端机器常常使用便宜的零部件,其故障率远高于更昂贵的机器。当用户管理几十台、上百台甚至几千台机器时,便宜的零部件故障率更高,导致维护成本更高;第二,不推荐使用大型数据库级别的
2015-06-23 09:40:25 3530
原创 hive如何处理多分隔符数据
问题描述: 大数据维稳需求中,客户提供的测试数据为多个字符做分隔符('|#'),在pig中会直接报错,hive中只认第一个分隔符。由于数据量比较大(160G),在文本中替换成单个字符分隔符已不现实,以下提供两个方案解决这一问题。 样例数据110|#警察120|#医院方案1:利用hive自带的序列化/反序列化的方式RegexSe
2015-06-23 09:37:54 6791
原创 hive内置函数大全
======================================一、关系函数1.等值比较:= 语法:A=B操作类型:所有基本类型2.不等值比较: 语法:A 操作类型:所有基本类型3.小于比较: 语法:A操作类型:所有基本类型4.空值判断:IS NULL 语法:a is null操作类型:所有类型5.非
2015-06-23 09:35:25 7594
原创 hive之实现列转行
样例:select * from tab1 limit 10;结果:id numa 1a 2a 3b 4b 3·····现在想实现把id一样的数据在一条数据中展现。结果示例:a 1 2 3b 4 3 实现方案有多种,在Oracle中LISTAGG函数可以满足
2015-06-20 16:50:00 9130 1
原创 MapReduce程序之实现单表关联
设计思路 分析这个实例,显然需要进行单表连接,连接的是左表的parent列和右表的child列,且左表和右表是同一个表。 连接结果中除去连接的两列就是所需要的结果——"grandchild--grandparent"表。要用MapReduce解决这个实例,首先应该考虑如何实现表的自连接;其次就是连接列的设置;最后是结果的整理。 考虑到MapReduc
2015-06-20 16:46:37 1821
原创 hive如何应对数据倾斜
数据倾斜概念:数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。执行操作: 1
2015-06-20 11:01:42 4439
原创 hive-内部表与外部表的区别
本文以例子的形式介绍一下Hive内表和外表的区别。例子共有4个:不带分区的内表、带分区的内表、不带分区的外表、带分区的外表。1 不带分区的内表#创建表create table innerTable(id int,name string) row format delimited fields terminated by '|';(show tables发现没有innerTabl
2015-06-20 10:58:22 2232
原创 Spark学习笔记之浅释
概述: Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:Algorithm Machine People,算法、机器、人) Spark是一种与Hado
2015-06-20 10:54:28 1019
原创 MapReduce编程之数据去重
数据去重主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。package com.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Config
2015-06-18 15:46:21 1190
原创 系统监控软件Ganglia的安装
1、实验环境 Centos6.42、安装rrdtool(注rrdtool-1.5.3不支持3.6.1)12#安装ganglia相关包yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel rpmbu
2015-06-18 14:44:17 1205
原创 推荐引擎mahout安装与配置
一、硬件环境操作系统:Linux ubuntu-13.04-desktop-i386jdk安装版本:jdk-7u51-linux-i586Hadoop版本:Hadoop-1.1.1(一个Namenode,三个Datanode部署)二、安装步骤在Mahout安装之前读过几篇有关机器学习的文章,面对协同过滤、分类聚类等算法的讲解我是深感无力啊,那么深奥的算法
2015-06-18 14:39:58 1161
原创 Linux、hive、sqoop常用脚本
一、Linux常用脚本1.查看进程 ps -ef|grep -i tom2.SCP从远程复制到本地目录 scp root@/172.19.2.75:/home/root/full.tar.gz /home/daisy/full.tar.gz 3.查看目录 pwd 4.查看hadoop集群状态
2015-06-18 14:17:17 3005
原创 hive UDF自动增长列函数
1.导入Eclipse编码jar包 hadoop-auth-2.4.0.2.1.3.0-563.jar hadoop-common-2.4.0.2.1.3.0-563.jar hive-exec-0.13.0.2.1.3.0-563.jar2.代码import org.apache.hadoop.hive.ql.exec.Descrip
2015-06-18 14:14:56 1356
原创 hadoop2.7完全分布式安装
1、安装JDK1.7+2、SSH互信免登陆3、/etc/profileHADOOP_PREFIX=/opt/hadoopJAVA_HOME=/opt/jdk1.7PATH=$PATH:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbinexport HADOOP_PREFIX PATH JAVA_HOME
2015-06-18 14:11:29 840
2020年DTCC大会嘉宾分享PDF
2022-06-08
JDK1.6 API
2012-09-13
java 开源 聊天系统
2012-07-04
都市供求信息网
2012-06-26
javascript特效程序
2011-12-18
用户登陆管理系统
2011-12-18
JAVA 代码编辑的贪吃蛇游戏
2011-04-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人