spark
林筱
这个作者很懒,什么都没留下…
展开
-
微信表情入库Mysql和Scala 过滤微信表情
一、背景 在对用户头像和昵称处理后,数据存放在Mysql,如果昵称包含微信表情,可能会导致数据入库失败二、解决方法1、分别修改数据库、数据表、数据列 字符集改成utf8mb4,排序规则为utf8mb4_unicode_ci表情符号占4个字节,UTF-8是3个字节,所以可以设置数据库字符集编码为utf8mb4(4个字节)2、对表情符号转码 设置字符集之后,并不能保证所有的表情都能入库...原创 2020-04-07 11:32:32 · 435 阅读 · 0 评论 -
Hbase底层原理和预分区实践
简介:HBase是一个典型的NOsql数据库,以其独特的列式存储和顺序读写(磁盘的顺序读写比内存的随机读写还要高效),能做到高效读取和存储海量数据,是大数据存储和数仓建设中很重要的工具在讲rowkey设计和预分区之前,让我们来看看hbase数据是如何根据rowkwy找到属于自己的region进行存储一、Hbase寻址和读写原理架构分析1、HMaster负责管理HBase元数据,即表的结...原创 2020-03-05 16:42:06 · 1374 阅读 · 0 评论 -
Spark SQL 之 Join原理
Spark SQL 之 Join 实现Spark SQL 之 Join 实现涂小刚 2017-07-19 217标签: spark , 数据库Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的...转载 2020-02-26 18:39:38 · 411 阅读 · 0 评论