大数据基础知识
文章平均质量分 81
Only you, only you!
这个作者很懒,什么都没留下…
展开
-
Spark高并发写Redis方案
Spark高并发写Redis解决方案原创 2022-09-27 14:50:17 · 1316 阅读 · 0 评论 -
HyperLogLog算法流程小结
HyperLogLog介绍 给定一批设备id集,通过一定流程提取这批id集的特征,用很少的一批数字表示(提前存下来),把这批数字带入特定公式,即可快速预估出这批id集的数量(存在较小误差)。可用在用户画像项目中的标签圈选人群数量预估上(支持多标签交集并集预估,速度1s以下。由于各个标签组合取值枚举海量,不可能提前求出所有情况的数量。RoaringBitmap计算速度在5s左右,用户体验差)。 此算法流程简单,但理论证明复杂,如无必要,可只关注流程。 HyperLogLog流程 原理1 01010101..原创 2022-02-09 13:09:08 · 436 阅读 · 0 评论 -
Roaring Bitmap 原理及实践
Bitmap/Bitset 问:1 亿个设备 id(imeimd5, 长度 32 字符串, 512 bit)需要多少存储空间? 答:1 亿 * 64 Byte = 64 亿 Byte = 6.4 G 但是,如果一个设备 id 使用 1 bit 存储,需要存储空间是 6.4G / 512 = 12.5 M set = {1, 2, 15} package roaringbitmap; public class Test { public static void main(String[] args原创 2021-09-14 16:59:00 · 1744 阅读 · 0 评论 -
Flink 快速入门
Flink 简介 Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any原创 2021-08-06 13:18:50 · 319 阅读 · 0 评论 -
《Hive编程指南》阅读笔记
首先搭建Hive编程环境,点我查看! 第 2 章 基础操作 2.7 命令行界面 2.7.1 CLI 选项 hive --help // 查看 cli 服务的使用帮助 hive --service cli --help 2.7.2 变量和属性 // 显示以上所有命名空间中的变量和属性 set; // 显示以上所有命名空间中的变量和属性,以及Hadoop中定义的所有属性 set -v; // 新建自定义属性 set foo = bar; // 查看自定义属性,等价于 set hiveconf:fo原创 2021-05-06 12:09:35 · 291 阅读 · 0 评论 -
Kafka 快速入门
Kafka 概述 Kafka 架构 搭建 Kafka 伪分布式环境 本文不使用 Kafka 自带的 Zookeeper,而是使用外部的 Zookeeper,所以得先安装好 Zookeeper。Zookeeper 伪分布式安装教程链接。 官网下载 Scala 2.11 - kafka_2.11-0.11.0.0.tgz (asc, md5) 。 开始搭建,类似搭建 Zookeeper 伪分布式环境。 // 在 Kafka 的 config 中先拷贝三份 server 的配置文件 cp serv原创 2021-03-27 23:31:51 · 159 阅读 · 0 评论 -
Hbase 快速入门
MySQL存储数据是以行为单位的,查询某条数据的某一列,就会把整行拿到,如果列比较多,就比较慢,不想要的列也会查出来!宽表垂直拆分,高表水平拆分(如日志文件按日期拆分)。增加列也可使用JSON方式动态增加。但MySQL的问题是存储大小受限(例如InnoDB最大64T)。MySQL是面向行的,适合查询,但不利于统计分析,比如要求某列的平均值,会把不需要的列都查出来,效率变低了。而HBase是面向列的存储,适合统计分析。 HBase 数据模型 The following represents the same原创 2021-03-25 23:42:16 · 206 阅读 · 0 评论 -
ZooKeeper 快速入门
Zookeeper 概述 ZooKeeper is a distributed, open-source coordination service for distributed applications(文件系统+通知机制). 例如,Zookeeper 存储服务器访问地址信息,然后接受客户端(观察者)注册,客户端要通过这些服务器地址访问服务器,一旦这些数据发生变化(比如某服务器宕机),Zookeeper 就通知已经在 Zookeeper 上注册的那些观察者做出相应的反应(不再访问该服务器),其实这就是观察原创 2020-11-08 18:48:30 · 290 阅读 · 0 评论 -
Spark 快速入门(2)
安装 下载 Spark,解压即可用!Windows 环境演示。 测试 在 Spark 的 bin 目录下执行下面命令,计算 100 次,求 Pi 的值。 spark-submit --class org.apache.spark.examples.SparkPi --executor-memory 1G --total-executor-cores 2 ../examples/jars/spark-examples_2.11-2.4.6.jar 100 WordCount 示例 启动 spark-s原创 2020-08-21 00:02:12 · 359 阅读 · 0 评论 -
Scala 快速入门(2)
特别说明,本文主要参考 尚硅谷大数据之韩顺平Scala视频及对应资料,本文是笔者对应的学习笔记。 1. Scala 概述 Scala 有些类是对 Java 类的封装,所以 Scala 依赖 JDK,使用 Scala,需要先装 JDK。Scala 编译成 Java 字节码,运行在 JVM 之上。 可去官网下载对应操作系统及对应版本的 JDK 和 Scala,安装/解压,并配置环境变量。一般在 Windows 开发,在 Linux 部署。一般使用 IDEA 开发(需要安装 Scala 插件)。 第一个 Scal原创 2020-08-14 16:02:01 · 494 阅读 · 0 评论 -
Spark 快速入门(1)
大数据技术概述 大数据时代 大数据时代技术支撑(存储,计算,网络) 存储,存储设备容量越来越大,价格越来越便宜 计算,CPU处理能力不断提升(摩尔定律),多核 网络,网络带宽提高,分布式处理 数据产生方式的变革促使大数据时代的来临,从运营式(沃尔玛大型超市购物系统),到用户原创(微博、微信),再到感知式(物联网)。 大数据概念 Volume,大量 Variety,多样(文件,音视频……) Velocity,快速(1秒定律,数据价值通常在诞生1秒内有效,比如在购物网站上实时点击流信息计算,构建用户画像原创 2020-08-06 20:34:31 · 1038 阅读 · 0 评论 -
Scala 快速入门(1)
Scalability is influenced by many factors, ranging from syntax details to component abstraction constructs. If we were forced to name just one aspect of Scala that helps scalability, though, we’d pick its combination of object-oriented and functional progr原创 2020-07-19 23:57:43 · 490 阅读 · 0 评论 -
Windows10 + VirtualBox 从零搭建 Hadoop/Hive 环境及 Hive 入门
1. 安装 VirtualBox 官网下载最新版本 VirtualBox 并安装,此过程简单,可结合百度。笔者使用 VirtualBox-6.1.10-138449-Win.exe。 2. 安装 Ubuntu 官网下载最新版本 Ubuntu 并安装到 VirtualBox 中,此过程简单,可结合百度。笔者使用 ubuntu-20.04-desktop-amd64.iso。最好开辟的硬盘空间大点,最起码 20G 吧,不然后续如果不够用,再扩容就比较麻烦了!!笔者在当前用户目录下建立了一个 env 文件夹,专门原创 2020-07-06 13:17:05 · 2536 阅读 · 2 评论