自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生大数据

在职大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500+节点大数据集群,100PB+数据,爱好python,爬虫。免费给所有转行大数据小白,大数据初级开发者提供职业规划和学习定制建议,欢迎大家交流

  • 博客(354)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 15万字+的数仓理论面试总结-卷到天花板

对于资深大数据开发来说,面试会直接围绕着你的项目展开畅聊,很少会问原理性的初级问题,所有的技术栈与数仓建模,开发管理规范,数据治理,数据质量等都围绕着项目展开,需要你不仅知其然,也需要知其所以然,尤其整个数仓理论这块是面试的重灾区,尤其是5年以上的大数据开发,数仓理论需要你结合实际讲解,结合实际讲出自己的理解,举例分析数仓理论的落地等,尤其中大厂非常看重着点,为什么需要视频讲解,因为没法办法,这玩意比较抽象,单纯文档学习学习并不好,必须结合实际距离,结合企业讲解,否则很多人不能吸收和融会贯通。

2023-04-07 07:00:00 359 1

原创 企业数据治理实战总结--数仓面试必备

本文为数仓面试必备!!!文章整理自涤生大数据老师宇哥,宇哥是历任中国电信,平安银行,微众银行,众安保险等多家公司擅长大数据求职面试,数仓开发管理,数据治理,数据质量等工作

2023-03-08 07:00:00 678

原创 大数据运维实战:hive锁泄露导致的zookeeper异常​

突然收到生产集群告警HDFS服务两个Failover Controller服务,备节点RM服务,以及集群中的zookeeper服务全部出现异常告警。已提交任务出现大量失败。

2023-02-09 07:00:00 461

原创 二本土木工程毕业四年,成功转行大数据

二本土木工程专业毕业四年有余,通过涤生大数据历时7个月左右成功转行大数据开发!

2023-01-28 08:53:32 2474

原创 认识涤生大数据的几个月,彻底改变了我

一个经历了考研失败、考教资失败、考事业单位失败、考公失败的双非一本学员,通过涤生大数据逆袭改变命运的故事

2023-01-16 08:57:14 1299 3

原创 presto查hive报错:end index must not be greater than size 问题分析和解决

presto0.208连接hive有不少坑,请尽量不要选择这个版本。presto0.208以上的版本,jdk需要8_151+

2022-12-17 07:00:00 632 1

原创 MPP架构与Hadoop架构是一回事吗?

本文旨在做一些概念上的澄清,并从技术角度论述两者同宗同源且会在未来殊途同归。

2022-12-15 07:00:00 378

原创 运维实战100:CDH5.16.2升级至CDH6.3.2

本期来分享一个cdh企业运维实战案例,将现有集群CDH版本由5.x版本升级为6.3.x版本。

2022-12-07 07:00:00 714 1

原创 Hive企业实战ORC表数据翻倍,颠覆你认知的Cluster by作用?

本文以企业生产上很常见的问题为案例,分析了clusterby的极大的效用

2022-12-03 07:00:00 1371 1

原创 带你学习不一样的数据仓库系列-框架概念

本系列文章参考总结自IBM,FaceBook,Google等数据仓库构建英文文章,部分章节为直译过来,部分内容加上乐哥6年陌陌,快手等工作经验总结而来,让大家了解真实国外大厂数仓构建之路,国外同行对数仓的理解

2022-12-01 07:00:00 507

原创 企业数仓DQC数据质量管理实践篇

本文介绍了数仓DQC数据质量管理理论,并分析了企业中如何进行实践!

2022-11-29 07:00:00 1232

原创 企业大数据可视化案例专题分享-入门

本文介绍了什么是企业级的数据可视化场景,同时进行了举例。

2022-11-27 07:56:37 498 1

原创 CDH启用kerberos 高可用运维实战

​在前的文章中介绍过《CDH集成的kerberos迁移实战》,由此也考虑到kerberos单节点可能引发的线上事故,所有考虑到把线上kerberos服务启用高可用。​

2022-11-25 06:30:00 450 1

原创 CDH集成的kerberos迁移实战

本文详细介绍CDH集成的kerberos迁移的过程和步骤

2022-11-23 07:23:26 333

原创 如何优雅部署OpenStack私有云II--异常处理记录

Kolla虽然已经实现了自动化,但是,安装过程依旧折腾得死去活来。特地记录了当时处理各种异常的记录,希望能够帮助到大家。

2022-11-21 07:51:48 453 1

原创 如何优雅部署OpenStack私有云I--Kolla

本文部署了一套基于完全开源的、方便部署、各位看官姥爷可复制的一个保姆级操作文档。整体操作做了模块拆分,循序渐进,满足你的各种求知欲。

2022-11-19 07:02:37 745 1

原创 如何在秋招的最后一段时间把握住机会?

如何在秋招的最后一段时间把握住机会?关键看下面这三点你能做好吗?

2022-11-17 07:36:17 820 1

原创 1000+节点的cdh集群主服务迁移全过程

由于种种原因,线上cdh集群的管理服务Cloudera Manager所在主机不能正常使用,Cloudera Manager相关的服务需要迁移到新的主机运行,且生产迁移不能影响任何生产环境的使用。

2022-08-26 13:15:51 884

原创 cdh6.x 集成spark-sql

cdh spark-sql

2022-07-28 10:29:11 1227

原创 涤生校招算法系列5:数组基本操作必掌握

校招不同于社招,不管是科班的大数据/计算机相关类专业的,还是其他专业转行大数据的小伙伴。同样大数据校招面试也是更看重基础(尤其是中大厂),校招不仅需要掌握大数据相关技术,还需要掌握一些基础知识(如计算机基础,算法数据结构),校招面试内容杂而多,如何系统化备战? 桐哥,壮哥,21年毕业研究生,目前在职快手,米哈游。俩人是校招收割机,校招拿到了美团,字节,快手,京东,滴滴,携程,小米,vivo,米哈游,好未来,小红书,garena,贝壳找房,招行,兴业银行等多家大中厂大数据校招Offer。...

2022-05-11 10:22:16 648 6

原创 日练算法-单词拆分

1 题目1.1 题目描述给你一个字符串 str 和一个字符串列表 wordDict 作为字典。请你判断是否可以利用字典中出现的单词拼接出 str 。原题链接:https://leetcode-cn.com/problems/word-break/解题注意:1.拆分时可以重复使用字典中的单词,可以假设字典中没有重复的单词;2.不要求字典中出现的单词都被使用示例输入: s = "leetcode", wordDict = ["leet", "code"]输出: tru..

2022-04-22 10:24:24 820 3

原创 Python数据结构之字典

python集合小练习if __name__ == '__main__': n1 = [1,3,5,7,12,14,16,18,23] list = [] l = len(n1) for i in range(0, l - 1): for j in range(i + 1, l): if n1[i] + n1[j] == 17:

2022-04-20 11:59:00 823 6

原创 算法日练-最长公共前缀

经典算法分享

2022-04-18 10:29:26 388 1

原创 算法日练-求最大子数组和

算法每日练,练后大厂见(也给大数据好好打基础)

2022-04-15 09:24:26 234

原创 详谈数据结构与算法

很多人在开始接触编程时都会经历面向对象、数据结构,再到刷算法题,但是很多人其实并未理清楚数据结构和算法的关系是什么。本文会就这一问题聊聊数据结构和算法之间的关系。数据结构简单来讲就是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成 。常用的数据结构如上图,其中本文将字符串单独作为一种数据结构是因为大家在笔试、面试中会经常遇到对于该知识点的基本考法(非常简单,必拿)。

2022-04-12 07:30:00 576 4

原创 程序员校招社招到底该面不面算法题?该如何准备?

绝大多数工作过的小伙伴都会发现,实际在工作中努力刷的leetcode,牛客算法题,在实际工作中基本用不着,感觉很无用。到底学算法有啥用?既然工作中一般用不着为啥有需要学呢?

2022-04-05 17:23:47 5281 16

原创 985高校大数据专业教学究竟怎么样?在校生有话说

哈罗大家好,我是来自华南理工大学数据科学与大数据技术专业的老鸭汤,目前是一名大一菜鸟。

2022-04-02 20:38:20 3057 12

原创 211大二计科生高呼:王侯将相宁有种乎?

大家好,我是科科,来自四川农业大学,高中时因为一些原因休学了一年多,后来重新读高中,从高二时转到职高,选择的计算机专业,现在四川农业大学

2022-04-01 16:14:09 2702 2

原创 一本院校大三萌妹子须臾:我的大数据之路

大家好啊!这里是须臾,正就读于一所普通的一本院校,是新兴专业“数据科学与大数据技术”的大三学生,马上要大四秋招了,压力好大哇,捂脸。

2022-03-31 08:00:00 2485 16

原创 985在读硕士晓文大数据学习之路1:出发

哈喽大家我是晓文,目前本硕就读于某985的传统工科(电子信息方向),目前研一,在学习大数据持之以恒的努力是困难的,无压力的安逸生活对于无监管状态的大学生是甘美的毒药,跳出舒适圈才能站在全局思考做什么是真正对未来有帮助的,避免“一叶障目”。

2022-03-28 08:30:00 893 9

原创 茜茜:大二开始布局学习大数据,结果如何?

1.大二小白才开始学习大数据,你以为晚了吗? 大家好,我是茜茜,我是一名双非普通一本大学的大二在读生,读的专业就是大数据行业最正宗的专业哈:数据科学与大数据技术。 本学期正式开启大数据之旅。我第一次了解到大数据这个词,来自于我的高三数学老师。正因为他的一句话:大数据是社会的发展趋势。我填报志愿的时候,为了把全部名额填满,就把陌生的数据科学与大数据技术也给报了一个,哪想我最没有想法的一个专业,这就给中招了。所以收到录取通知书的时候,我是既开心又带点担忧的心情。 身...

2022-03-27 08:30:00 4168 17

原创 经验:几个985/211/普通院校的本科生/研究生高薪大数据学习全程记录,笔记心得,求职面试

1.自我供述哈罗大家好,我是涤生哥。蓦然回首做了很多年大数据,也经历了一线大厂,中型公司。从毕业一个Java程序员到大数据开发,高级大数据开发,数仓专家,到现在的大数据架构专家。一直以来在CSDN上断断续续分享一些博客,也认识了很多大数据行业的小伙伴。前期后后也帮助了数百名小伙伴大数据职业规划,求职面试答疑解惑。对大数据这个行业也算有些自己的心得和深入的看法吧。2.对大数据行业的浅见跟很多小伙伴交流以后,才发现很多人对大数据行业有着较大的误区。其实大数据行业没...

2022-03-26 10:29:43 3921 16

原创 Python数据结构-元组、集合

上次提及到的,使用列表解析删除字符串中的所有元音(aeiou)。方法1:使用函数方法实现def string_list(string): """获取字符串中非元音的字符串""" return ''.join([c for c in string if c.lower() not in 'aeiou'])if __name__ == '__main__': print(string_list('Whati s wrong with you'))方法2:使用pyth

2022-02-15 10:27:06 266 8

原创 Python数据结构-列表

正则小练习:匹配出以下字符串所有url,import redef find_url(sentence, show_urls=None, delete_urls=None): r = re.compile( r'(?i)\b((?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()&

2021-12-26 08:38:29 5491 19

原创 Python正则表达式使用

小练习:用代码实现自定义的replace_practice替换函数,实现代码如下:功能是将字符串中所包含的空格替换为mmdef replace_practice(str,a,b,count=None): i=0 #记录替换count次数 n=0 result=[] if count==None: count=len(str) while i<len(str) and len(str)!=0 and n<count:

2021-12-22 10:18:05 9900 14

原创 Python字符串函数使用详解

Python的友好在于提供了非常好强大的功能函数模块,对于字符串的使用,同样提供许多简单便捷的字符串函数。Python 字符串自带了很多有用的函数,在字符串函数之前先介绍一个非常实用的dir()内置函数,因为对每一个初学者还是大佬级别的python程序员,都不能完全记住所有方法。而该函数可以查看所有这些函数,可调用 dir 并将参数指定为任何字符串(如 dir("")),其返回值包括字符串可以使用的变量、方法和定义的类型。>>> dir("")['__add__', '__clas

2021-12-17 14:44:02 10432 18

原创 集群运维:All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e

大数据集群运维:all datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e

2021-12-14 15:47:28 4276 3

原创 Python字符串使用详解

除了数字,Python中最常见的数据类型就是字符串,无论那种编程语言,字符串无处不在。例如,从用户哪里读取字符串,并将字符串打印到屏幕显示出来。 字符串是一种数据结构,这让我们有机会学习索引和切片——用于从字符串中提取子串的方法。1 字符串索引在Python语法支持中,我们简单的阐述过字符串的使用,现在我们看看python程序在处理字符串时,如何对其进行索引,打印出其中的每个字符串。我们输入一个字符串:'你好,Lucky',Python使用方括号 [] 来对字符串进行索引,方括号内的数字 0~n 表

2021-12-13 15:37:41 7338 15

原创 linux生产文本处理掌握这些就够了:awk,gawk,sed,grep,sort

shell脚本最常见的一个用途就是处理文本文件。检查日志文件、读取配置 文件、处理数据元素,shell脚本可以帮助我们将文本文件中各种数据的日常处理任务自动化。但仅靠shell脚本命令来处理文本文件的内容有点力不从心的。如果想在shell脚本中处理任何类型的数据,掌握grep,sed和gawk工具可以达到事半功倍的效果。企业开发中常用,高阶命令。linux文本处理三剑客:grep+sed+awk(gawk)16.0 grep的使用所有的类linux系统都会提供一个名为grep(global re

2021-12-11 18:19:17 1630 7

原创 Python:变量、参数、模块

简单的使用python函数之后,我们在日常开发中还需要经常使用的三个地方,分别是变量、参数和模块。其中,Python的变量类型已经在语法介绍中做了简单的使用描述。在本篇文章中,会更加强调变量的作用域,并分别介绍参数和模块的使用。1 变量首先,在python中,变量是存储在内存的值,程序在执行创建变量时会在内存中创建一个空间,并且根据变量的数据类型,python解析器会分配指定内存。变量标记或者指向一个值。示例如下:与剧中的 color 就是一个变量名,指向字符串 blue, 代码 color =

2021-12-09 15:35:17 2889 13

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏 阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除