大数据
文章平均质量分 92
大数据之路
荒野求思
人生就像写代码,总有bug出现
展开
-
服务端分布式架构、客户端分布式架构、分布式系统的区别与联系
你知道,服务端分布式架构和客户端分布式架构的区别么?原创 2018-12-12 18:24:13 · 1625 阅读 · 0 评论 -
被CTO推荐的SQL总结
写SQL很多年后,做的小总结原创 2022-09-29 22:53:47 · 3108 阅读 · 2 评论 -
impala 执行计划详解
impala 执行计划详细解读原创 2022-07-23 13:18:13 · 3092 阅读 · 0 评论 -
关于MySQL,PostgreSQL,Impala,Spark的执行计划-总结
impala,mysql,spark,postgresql执行计划总结原创 2022-05-09 21:24:49 · 1156 阅读 · 0 评论 -
SCD-缓慢变化维-拉链表
缓慢变化维的几种处理方式原创 2022-05-02 01:55:24 · 1137 阅读 · 2 评论 -
设计数据密集型应用(六),DDIA
《设计数据密集型应用》第六部分原创 2022-04-25 19:20:05 · 431 阅读 · 0 评论 -
设计数据密集型应用(五),DDIA
《设计数据密集型应用》读书笔记,第五部分原创 2022-04-24 20:53:10 · 488 阅读 · 0 评论 -
设计数据密集型应用(四),DDIA
《设计数据密集型应用》读书笔记,第四部分原创 2022-04-23 11:54:04 · 1097 阅读 · 0 评论 -
设计数据密集型应用(三),DDIA,事务
五、第7章节-事务5.1-事务的起源很早就接触事务这个概念,关于事务网上的文章动不动就把转账的的例子拿出来讲,坑的时候有的压根就没有讲明白,事务的概念事务要不就执行成功,要不执行失败,只有这2种状态也背的烂熟,也知道事务的4大特性ACID (原子性、一致性、隔离性、持久性),但是这么些年从来没有思考过:为什么要有事务?他解决了什么样子的问题/痛点?那么我们带着这个问题来回顾一下事务起源:上图中有一个名为猪小明程序员抱着自己的电脑在疯狂的写代码(开发应用程序),其中应用程序需要透过网络在数据库中存放数原创 2022-04-22 12:27:53 · 870 阅读 · 0 评论 -
设计数据密集型应用(二),DDIA
《设计数据密集型应用》读书笔记第二部分原创 2022-04-21 12:48:16 · 712 阅读 · 0 评论 -
设计数据密集型应用(一),DDIA
数据密集型应用系统设计原创 2022-04-20 21:33:54 · 7682 阅读 · 2 评论 -
数据开发利器DataGrip
入职一家新的公司,数据团队有8个人,刚开始就我一个人在用,两个月之后,整个小组都在用,这就是DataGrip的魅力。DataGrip 支持几乎所有主流的关系数据库产品,如 DB2、Derby、H2、MySQL、Oracle、PostgreSQL、SQL Server、Sqllite 及 Sybase ,更有魅力的支持Hive,clickhouse等,这个对大数据方向的小伙伴就nice了。快捷键快捷键 作用 Ctrl+Alt+Shift+S 管理数据库连接 双击Shift .原创 2021-06-27 11:38:51 · 907 阅读 · 0 评论 -
Hive left join on and where 对结果集的影响 + group by 和 row_number 的执行顺序
some summary about hivesql 过程select * from table 历经下面几个过程:解析:将SQL字符串解析成语法树AST,判断表示否存在、字段是否正确编译:将AST编译成逻辑执行计划优化:对执行计划进行优化执行:逻辑执行计划转为物理执行计划,MR/SparkHive 仅仅支持等值连接,on a.id >= b.id 不允许,on a.id = b.id 是可以的。...原创 2021-06-14 10:02:02 · 3523 阅读 · 0 评论 -
git 常用命令(git status,git statsh,git commit,git pull,git merge,git push origin,git add,git checkout.)
Git小总结QAgit 中有几个区域,各自的目的???? 工作区:修改过的内容都会进入工作区???? 暂存区:git add 可以将工作区的file添加到本地仓库???? 本地仓库:git commit -m ‘**’ 会将暂存区的file提交到本地仓库4️⃣ 远程仓库:git push origin master(分支名称) 将本地仓库推到远程仓库git status的作用显示工作区,暂存区,本地仓库,远程仓库之间的文件状态;如:Your branch is up to原创 2021-06-06 09:56:59 · 1155 阅读 · 0 评论 -
群起zookeeper,kafka的脚本
目录群起,关zookeeper脚本:群起,关kafka脚本:群发命令的脚本:近期,在玩kafka,kafka是依赖于zookeeper的,每次都要去各个节点上启动zookeeper,于是就尝试写了一个shell脚本来实现zookeeper和kafka的群起和群关群起,关zookeeper脚本:#!/bin/bashcase $1 in"start"){ for ...原创 2018-12-12 17:27:14 · 1352 阅读 · 0 评论 -
自定义OutputFormat(附带可上手实例)
目录OutputFormat的使用场景: 需求:需求分析:代码实现:输入结果:OutputFormat的使用场景: 需求:过滤输入的log日志,包含isea的网站输出到e:/isea.log,不包含atguigu的网站输出到e:/other.log,输入的数据:http://www.baidu.comhttp://www.google.comhttp:...原创 2018-11-23 14:24:18 · 602 阅读 · 0 评论 -
GroupingComparator分组排序
目录分组排序步骤:需求:需求分析:代码实现:对Reduce阶段的数据根据某一个或几个字段进行分组。分组排序步骤:(1)自定义类继承WritableComparator(2)重写compare()方法@Overridepublic int compare(WritableComparable a, WritableComparable b) { ...原创 2018-11-23 08:39:24 · 691 阅读 · 0 评论 -
MapReduce的Combiner合并
目录Conbiner出现的本质:需求:需求分析:方案一实现:方案二实现:Conbiner出现的本质:在map之后,如果Map阶段不进行合并的话,到达reduce端的数据将是下面这种类型的:<a,1><a,1><a,1>,reducer要处理的工作量大,还要消耗大量的IO,reduce的数量是相对于map是更少的,所以可以把合并的工作交...原创 2018-11-22 15:58:13 · 851 阅读 · 1 评论 -
WritableComparable区内排序
目录需求:原始数据:实现代码:结果:需求:原始数据:13509468723 7335 110349 11768413975057813 11058 48243 5930113568436656 3597 25635 2923213736230513 2481 24681 2716218390173782 9531 2412 119431363057799...原创 2018-11-22 14:56:44 · 497 阅读 · 0 评论 -
自定义WritableComparable全排序
目录案例代码实现:案例数据源:13470253144 180 180 36013509468723 7335 110349 11768413560439638 918 4938 585613568436656 3597 25635 2923213590439668 1116 954 207013630577991 6960 690 76501368284655...原创 2018-11-22 14:48:54 · 658 阅读 · 0 评论 -
自定义分区Partitionor
目录需求:需求分析:代码实现:测试1,测试2,测试3,分区总结:需求:将统计结果按照手机归属地不同省份输出到不同文件中(分区)数据源:1 13736230513 192.196.100.1 www.isea.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636...原创 2018-11-22 11:29:35 · 472 阅读 · 0 评论 -
InputFormat数据输入和OutPutFormat数据输出
InputFormat的作用:切片把切片打散成< K ,V >主要分为下面这几种不同的数据输入的方式:FileInputFormat 按照文件的块大小进行切片 该类没有实现 TextInputFormat 按照文件的块大小进行切片 LineLineRecordReader,key是偏移量,value是一行的内容 KeyValueI...原创 2018-11-22 10:03:25 · 782 阅读 · 0 评论 -
Hadoop的序列化和反序列化,和实例演示
目录什么是序列化和反序列化?hadoop 中常用数据的序列化类型 自定义bean对象实现序列化接口(Writable) 序列化案例实操 自定义类:FlowBeanMapper类MapperDriver什么是序列化和反序列化?序列化:将内存中的对象装换成字节序列,以便于持久化到硬盘和网络传输反序列化:将接收到的字节序列或者是磁盘中的持久化数据转换...原创 2018-11-20 22:42:10 · 1851 阅读 · 0 评论 -
WordCount的MapReduce过程
目录环境的搭建:Map过程:Reducer过程:Driver过程:Debug过程理解MapReduce过程:跑在集群上下面,我们根据官方的wordcount案例,自己手写一个wordcount的程序,思路是这样的,一个wordcountMapper类继承Mapper类,一个继承Reducer的类,加上一个驱动类。在这之前,我们在分析一下这两个父类。Mapper类...原创 2018-11-20 20:25:39 · 576 阅读 · 0 评论 -
10分钟搭建Hadoop集群手册(15分钟搭集群,不能再多了~)
目录准备一台安静的虚拟机搭键集群以下步骤,亲测至少3次,能不能10分钟搞定一个集群,就看你的手速啦~一台只是安装好了CentOS的虚拟机:我们在虚拟机内部打开获取ip地址:然后使用ssh登录,这样操作起来更加方便:使用ssh扥登录之后,立马进行如下的操作。准备一台安静的虚拟机#1,关闭防火墙[root@hadoop100 ~]# chkconfig iptables...原创 2018-11-16 19:23:47 · 887 阅读 · 0 评论