大数据
文章平均质量分 75
anshuai_aw1
这个作者很懒,什么都没留下…
展开
-
事务相关博客
事务的多版本控制浅谈数据库并发控制 - 锁和 MVCC多版本并发控制2个结合看。『浅入深出』MySQL 中事务的实现分布式事务的实现原理转载 2021-08-31 05:49:36 · 637 阅读 · 0 评论 -
Consistency = Consensus?
Consistency = Consensus?词典会告诉你,Consusens的意思就是“一致”(我想这也许就是中文文献中对“一致性”误用的根源),似乎和Consistency是一样的?答案是否定的。虽然这两个单词的译意接近,但是在分布式系统中作为专业名词来讲,其代表的含义实则相差甚远。我们常说的“一致性(Consistency)”在分布式系统中指的是副本(Replication)问题中对于同一个数据的多个副本,其对外表现的数据一致性,如线性一致性、因果一致性、最终一致性等,都是用来描述副本问题中的一转载 2021-06-05 04:04:32 · 816 阅读 · 0 评论 -
Database consistency
consistency 这个词在不同的环境下有着不同的含义,各个方向都在使用,导致很难理解:多副本的一致性,即distirbuted一致性hash.CAP理论的一致性ACID里的一致性而这几个一致性的含义都不相同。结合各种资料,自己做个总结方便查阅。一、事务的ACID中的C第一种理解首先来解释下ACID中的Consistency怎么解决。参考文献【1】中的sleep deep解释得很好。直接复制过来:请看下面Wikipedia中关于数据库事务一致性的定义Consistency e转载 2021-06-03 22:36:32 · 604 阅读 · 0 评论 -
cache consistency: Read-Through, Write-Through, Write-Behind
花点时间记录一下自己对cache的一些基本概念的理解。cache的功能这里略去。一、cache consistencycache consistency这个概念到处都在用。但是各有各的解释,容易模糊。在这里,借助参考文章【1】中的定义简单化这个概念:eventually the value of key k should be the same as the underlying data store, if k exits in cache.即只要cache中的值和back-end中的值一致,原创 2021-05-23 16:28:34 · 605 阅读 · 1 评论 -
Hive操作的笔记:如何查Hive表某个分区的最后更新时间等
记录一些自己在工作的一些小功能的代码实现,不断补充记录。一、如何查Hive表某个分区的最后更新时间。通过查HDFS可以得知:1: 查询某个表的HDFS地址desc formatted app.app_vdp_cate_health_cate1_coinuser_associndex;2: 进入到地址中dfs -ls hdfs://ns7/user/mart_vdp/...原创 2020-04-02 14:31:08 · 4229 阅读 · 0 评论 -
解决Hive中collet_list列表排序混乱:sort_array
这篇文章写的比较扯淡。。。。由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可。sort_array就是对array进行排序,且只能升序。我在这里举一个完整的例子和代码:如果,我们有如下的数据集(借助了参考文献1的数据),我们希望对memberid进行分组,依照legcount的顺序,...原创 2020-05-22 13:55:22 · 10555 阅读 · 3 评论 -
Spark性能调优详解
本文完全转载自《美团技术沙龙》和过往记忆博客。在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执...转载 2019-04-01 15:46:39 · 1559 阅读 · 0 评论 -
PySpark-DataFrame各种常用操作举例
最近开始接触pyspark,其中DataFrame的应用很重要也很简便。因此,这里记录一下自己的学习笔记。详细的应用可以参看pyspark.sql module。这是官网文档,里面记录了详细的DataFrame使用说明。目录一、创建DF或者读入DF二、查2.1 行元素查询操作2.2 列元素操作 2.3 排序2.4 抽样三、 增、改四、合并 join / un...原创 2019-02-23 13:29:52 · 34625 阅读 · 1 评论 -
Scala语法快速入门
最近开始接触一点Scala的东西,这篇博客记录的都是一些最基本的Scala语法,主要是方便自己查询用,所以不是很系统。目录二、控制结构2.1 条件表达式2.2 块表达式和赋值2.3 循环2.4 增强for循环和for推导式三、Scala 方法与函数3.1 方法3.2 函数3.2.1 指定函数参数名3.2.2 可变参数3.2.3 高阶函数3.2.4...原创 2019-01-07 15:18:32 · 3585 阅读 · 0 评论 -
Scala下划线“_”的常用用法大全
在Scala中,我们随处可见下划线“_”,本篇博客记录了Scala中下划线“_”的各种常用用法,可能不是全部的用法。目录一、集合和函数中使用1.1 集合1.2 函数二、作为通配符2.1 import语句2.2 case语句2.3 元组(tuple)三、下划线和其他符号组合的使用方式3.1 下划线与星号(_*)3.1.1 变长参数3.1.2 变量声明中...原创 2019-01-04 17:51:39 · 2966 阅读 · 0 评论 -
spark RDD概念及其算子举例讲解
作为之前对spark RDD可以说是完全不懂的小白,在阅读部分网友的博客的基础上,我从自己理解的角度和方式来记录一下自己学习spark RDD的过程。目录一、RDD介绍1.1RDD是什么1.2Spark与RDD的关系1.3为什么会产生RDD1.4RDD底层实现原理1.5 RDD的操作二、通过例子学习spark RDD的操作2.1 Action函数...原创 2019-01-04 15:39:42 · 2052 阅读 · 0 评论 -
拉链表介绍,及其在Hive中如何更新
全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,在Hive下设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表。分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。一、什么是拉链表拉链表是针对数据仓...转载 2018-12-20 17:38:34 · 2830 阅读 · 0 评论 -
hive 有序化地将多行拼接成一行
有这么一个数据集:session_id row_number sku_id aa 2 a aa 3 c aa 1 b bb 2 d bb 3 c bb 1 a bb 4 a 根据session_id分组,将sku_id按照row_number的顺序,多行拼接成一行。 ...原创 2018-11-28 19:04:26 · 8022 阅读 · 2 评论 -
数据倾斜及其高效解决方法
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。数据倾斜是指:mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千...转载 2018-11-13 18:20:07 · 34842 阅读 · 1 评论