大数据
文章平均质量分 65
adu_200000
这个作者很懒,什么都没留下…
展开
-
使用thrift的php版本操作hbase数据库
目录hbase环境配置thrift环境配置api接口生成操作案例最近要进行用户行为分析,数据存储决定采用hbase。并且为了便于和当前系统契合,采用php进行存取。hbase环境配置 1. 进入hbase官网,进入下载页面,下载对应版本的可执行文件和源文件。2. 直接将可执行文件进行解压缩,并且进行配置。conf/hbase-env.sh中的 export ...原创 2018-08-14 18:33:19 · 1085 阅读 · 0 评论 -
RoaringBitmap数据结构及原理
首先 每个RoaringBitmap(GitHub链接)中都包含一个RoaringArray,名字叫highLowContainer。 highLowContainer存储了RoaringBitmap中的全部数据。RoaringArray highLowContainer; 这个名字意味着,会将32位的整形(int)拆分成高16位和低1...转载 2019-02-20 17:11:16 · 1631 阅读 · 0 评论 -
布隆过滤器的简单介绍
目录什么是布隆过滤器实现原理HashMap 的问题布隆过滤器数据结构支持删除么如何选择哈希函数个数和布隆过滤器长度最佳实践大Value拆分什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”...转载 2019-02-14 15:22:58 · 178 阅读 · 0 评论 -
倒排索引是什么?
目录背景介绍单词——文档矩阵倒排索引基本概念倒排索引简单实例单词词典哈希加链表树形结构总结背景介绍 见其名知其意,有倒排索引,对应肯定,有正向索引。正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实...转载 2019-02-19 16:55:07 · 232 阅读 · 0 评论 -
存储引擎原理:LSM
目录Log Structured Merge Trees(LSM) 原理背景知识The Base LSM AlgorithmBasic CompactionLevelled Compaction总结关于 LSM 的一些思考Beyond Levelled LSMLog Structured Merge Trees(LSM) 原理 十年前,谷歌发表了...转载 2019-02-13 13:55:34 · 705 阅读 · 0 评论 -
数据仓库基本概念介绍
目录1、数据仓库所处环节操作层 数据仓库数据集市个体层2、数据仓库概念面向主题的 集成的随时间变化的非易失的3、一般架构STAGE层 ODS层MDS层ADS层 DIM层ETL调度系统元数据管理系统4、设计的两个重要问题1、 粒度2、 分区1、数据仓库所处环节 在一个成体系...转载 2019-02-22 18:40:28 · 7567 阅读 · 0 评论 -
几张图搞懂列式存储
目录 为什么要按列存储数据压缩技术查询执行性能 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表。Row-based storage stores a table in a sequence of rows. Column-ba...转载 2019-01-18 22:35:00 · 567 阅读 · 0 评论 -
hive中hql的shell常规操作命令
hive执行hql的命令方式主要有三种,分别是通过直连操作执行、将hql以参数的形式进行操作以及将hql封装到文本中进行执行。目录 一.直连方式执行二.以参数的形式执行三. 封装到文件中进行执行一.直连方式执行键入“hive”,启动hive的cli交互模式。Set可以查看所有环境设置参数,并可以重设。其他命令如, Use database ...转载 2018-10-12 14:18:05 · 1266 阅读 · 0 评论 -
hue环境搭建
目录 hue环境介绍环境安装配置hue环境介绍HUE——Hadoop User Experience,这是一个与Hadoop生态系统紧密结合的Web UI应用程序,可以通过Hue来查看管理HDFS上面的文件(甚至修改文件内容和删除文件等)、通过Hue从界面编写sql语句对Hive进行查询,并使用图表直观的展示查询结果、可以与Oozie集成,用于创建和监控工作流程等。hue环...原创 2018-08-27 15:04:51 · 1746 阅读 · 0 评论 -
hadoop框架简单介绍
目录Hadoop概念介绍Hadoop集群的部署结构Hadoop组件依赖关系Hadoop两大核心设计HDFSMapReduceHadoop概念介绍 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要的两种组成元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distri...转载 2019-05-28 16:40:26 · 447 阅读 · 0 评论