做一只精致IT小白
码龄6年
关注
提问 私信
  • 博客:32,332
    社区:22
    32,354
    总访问量
  • 30
    原创
  • 1,237,907
    排名
  • 84
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-08-14
博客简介:

做一只精致IT小白

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    121
    当月
    0
个人成就
  • 获得91次点赞
  • 内容获得1次评论
  • 获得62次收藏
创作历程
  • 6篇
    2024年
  • 3篇
    2022年
  • 1篇
    2021年
  • 3篇
    2020年
  • 17篇
    2019年
成就勋章
TA的专栏
  • MapReduce
    3篇
  • Spark
    4篇
  • Python
    5篇
  • MySQL
    1篇
  • Scala
    2篇
  • Hive
    3篇
  • 数据仓库
    14篇
  • 调优
    4篇
  • Java
    4篇
  • Hadoop
    3篇
  • Database
    1篇
兴趣领域 设置
  • Python
    python
  • 数据结构与算法
    数据结构
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【MapReduce】03.MapReduce框架原理

数据切片:数据切片是MapReduce程序计算输入数据的单位,一个切片会对应一个MapTask(逻辑切分,并非物理切分)MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。数据块:Block是HDFS物理上的数据分割,数据块是HDFS存储数据单位。1)一个Job的Map阶段并行度由客户端在提交Job时的切片数决定。2)每一个Split切片分配一个MapTask并行实例处理。4)切片时不考虑数据集整体,而是逐个针对每个文件单独切片。
原创
发布博客 2024.03.07 ·
499 阅读 ·
8 点赞 ·
0 评论 ·
8 收藏

【MapReduce】02.Hadoop序列化

7)如果需要将自定义的bean放在key中传输,则还需要实现Comparable接口,因为MapReduce框中的shuffle过程要求对key必须能排序。6)要想把结果显示在文件中,需要重写toString()方法,可用\t分开,方便后续使用。2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造。自定义bean对象实现序列化接口。5)注意反序列化顺序和序列化顺序要完全一致。1)必须实现Writable接口。4)重写反序列化方法。
原创
发布博客 2024.03.05 ·
667 阅读 ·
9 点赞 ·
0 评论 ·
7 收藏

【DataW】建模理论

每个操作型事件,基本都是发生在实体之间,伴随发生会产生可度量的值,而这个过程会产生一个事实表,存储了每个可度量的事件。在1NF的基础上,实体的属性完全依赖于主关键字,不能存在仅依赖住关键字一部分的属性,也就是不存在局部依赖。4.数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量、一致的数据访问平台。2.数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。2.每个维表的主键为单列,且主键放置在事实表中,作为两边连接的外键。
原创
发布博客 2024.01.24 ·
430 阅读 ·
10 点赞 ·
0 评论 ·
7 收藏

【MapReduce】01.概述

MapReduce是一个分布式运算程序的编程框架,用于Hadoop数据分析的核心框架。MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
原创
发布博客 2024.01.19 ·
367 阅读 ·
13 点赞 ·
0 评论 ·
8 收藏

【征服大A的漫漫长征路】

Author:子辰。
原创
发布博客 2024.01.18 ·
367 阅读 ·
8 点赞 ·
0 评论 ·
8 收藏

《跟着高手学复盘》笔记

因为错误的理解复盘目的,认为复盘是对过去的追责和惩罚,所以在有意逃避中将责任甩给别人。认识到用户的问题不在产品丰富度,而在于匹配精准度(对认知的修正)对未来优化,包括对过去事实的总结,更重要的是对原因的分析和对认知的修正。用B2C模型替代C2C模型(对未来优化)找出原来C2C的问题(对原因的分析)整理用户和行业资料(对事实的总结)事实上复盘目的应该是。
原创
发布博客 2024.01.09 ·
564 阅读 ·
9 点赞 ·
0 评论 ·
11 收藏

【Spark】02.Spark-IDEA配置

1.基于jdk1.8创建一个maven项目2.增加scala-sdkProject Structure - Platform Settings - Global Libraries3.增加Spark的Maven依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c
原创
发布博客 2022.03.17 ·
2223 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Spark】01.Spark框架

Spark是一种由Scala语言开发的快速、通用、可扩展打大数据分析引擎,Spark更倾向于计算。一次性数据计算框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中。因此,MapReduce不适合迭代式数据开发。但是Spark基于内存,当资源受到限制的时候,还是需要依赖MapReduce,因此不能完全代替。SparkCore提供Spark最基础与核心的功能,以下功能都是基于Core进行扩展SparkSQLSpark用来操作结构化数据SparkStre
原创
发布博客 2022.03.16 ·
1790 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Python(一)基础知识

Python简介PyCharm安装和使用Python基础知识变量命名规范1.标识符由字符、下划线和数字组成,且开头不能是数字2.严格区分大小写3.不能使用关键字
原创
发布博客 2022.01.29 ·
553 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓_数仓构建流程

原创
发布博客 2021.11.23 ·
1146 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MaxCompute —【存储_压缩操作】

压缩方案说明:压缩前后请务必进行数据测试对比,确保数据压缩前后一致。对比工具:https://datacompare.alibaba-inc.com/#/home原理说明在默认情况夏,数据是按照写入时间顺序存储的,这样物理上相邻的数据其实相似性并不高。在当前列存储当道的大背景下,如果让某个人/设备的数据在物理上相邻,就能够用20%的代价达到80%的数据存储优化效果。【desc extended <table_name>;】...
原创
发布博客 2020.11.12 ·
906 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive —【order by/sort by】

Order byOrder by会对输入做全局排序,因此只有一个reduce(多个reduce无法保证全局有序)只有一个reduce,会导致当前输入规模较大时,需要较长的计算时间。Set hive.mapred.mode=nonstrict;(default value/默认值)Set hive.mapred.mode=strict;Order by 和数据库中的order by功能一致,按照某一项&几项排序输出。与数据库中的order by的区别在于hive.mapred.mode=
原创
发布博客 2020.11.11 ·
532 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Scala—scala中不建议使用return

在scala中使用return的话,编译的时候会提示the latest statement is method is automatically returned, use of th return keyword is redundant.这个警告是说最后一个语句的结果会自动返回,使用return关键字是多余的。而我们在使用Idea写scala代码时使用了return后并没有直接提示,...
原创
发布博客 2020.03.23 ·
1150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python - MySQL数据库相关对象及优化操作

Python数据库的Connection、Cursor两大对象Python数据库图解流程参数优化url在url后加上参数rewriteBatchedStatements=true表示MySQL服务开启批次写入,此参数是批次写入的一个比较重要参数,可明显提升性能batchsizeDataFrame writer批次写入MySQL的条数,也为提升性能的参数isolationLeve...
原创
发布博客 2019.11.20 ·
248 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Python - 库

re库正则表达式库turtle库turtle(海龟)库是turtle绘图体系的Python实现Python语言的标准库之一[入门级的图形绘制函数库]
原创
发布博客 2019.11.12 ·
187 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Python - Normal Function

eval()评估函数
原创
发布博客 2019.11.11 ·
1163 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python - 正则表达式超详细理解

Topic:python中关于正则表达式
原创
发布博客 2019.11.11 ·
310 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DataWarehouse -【马蜂窝】数据仓库设计与实践

Part.1 马蜂窝数据仓库与数据中台最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。数据中台到底是什么?要不要建?和数据仓库有什么本质的区别?相信很多企业都在关注这些问题。我认为数据中台的概念非常接近传统数据仓库+大数据平台的结合体。它是在企业的数据建设经历了数据中心、数据仓库等积累之后,借助平台化的思路,将数据更好地进行整合与统一,以组件化的方...
原创
发布博客 2019.11.07 ·
693 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-SparkSQL与DataFrame的本质

SparkSQL与DataFrame一、SparkSQL之所以是除了SparkCore以外最大的和最受关注的组件,原因如下:处理一切存储介质和各种格式的数据(同时可以方便的扩展SparkSQL的功能来支持更多类型的数据,例如Kudu)Spark SQL把数据仓库的计算能力推向新的高度,不仅是计算速度(Spark SQL比Shark快了至少一个数量级,而Shark比Hive快了至少一个数量级...
原创
发布博客 2019.11.06 ·
233 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark-Apache Spark3.0.Dynamic Partition Pruning

静态分区裁剪[Static Partition Pruning]用过Spark的同学知道,SparkSQL在查询的时候支持分区裁剪,比如:select * from Sales where day_of_week = ‘Mon’Spark会自动进行以下的优化:从上图可以看到Spark在编译SQL的时候自动将Filter算子下推到数据源,也就是在Scan前进行了Filter操作,将day...
原创
发布博客 2019.11.05 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多