- 博客(180)
- 资源 (7)
- 收藏
- 关注
原创 史上最全系列 | 大数据框架知识点汇总(资源分享、还不快拿去)
前言大家好,我是土哥写文章整整 五个月 了,在这期间写了很多篇高质量文章,每一篇都在 1000+ 阅读以上,为了让各位小伙伴更好的学习和面试,我将自己 发表的文章 以及 未发表的文章 全部汇总成一个文档,里面包含了全部的无水印高清图片,具体内容如下:关注公众号:【3分钟秒懂大数据】,回复关键字:【大数据】,进群领取 下文全部 PDF 文件。1、大数据学习路线文章硬不硬核,你说了算,土哥怒肝大数据学习路线一条龙!(万字长文+资源分享)上述文章将所有组件的安装包全部都收集好,版本
2021-11-23 00:15:32 5029 36
原创 CDH6.2.0搭建(史上最全的安装教程)
1 集群准备 1 首先准备三台虚拟机,虚拟机ip地址可以ping通。 ip 名称 192.168.63.131 cdh1 192.168.63.132 cdh2 192.168.63.133 cdh3 2 系统环境准备在三台虚拟机上 进行网络配置, 免密登录、防火墙关闭、selinux关闭...
2020-05-08 23:47:13 19712 66
原创 2022届秋招各大公司面经总结
提问环节问自己没答出的最重要的一个问题(如果都答出来了,就不要问啦) 面试官您好:你能具体给我讲讲目前您所在的部门具体负责公司的哪块业务,以及技术栈吗? 面试的流程大概是什么样的?通长时间能收到2面或3面通知 如果有幸进入公司,是否可以去实习?扩展新知识机器学习了解吗? 监督学习和非监督学习有什么区别? 分布式集群有哪些了解? docker有什么了解? 微服务了解吗? ...
2019-08-25 12:30:05 3563 1
原创 2020-JAVA-大数据-面试汇总
腾讯一面 试下 4月6日 挂1 自我介绍2 介绍一下你在项目中的承担的任务3 你对哪种语言熟悉4 线程池使用过吧,说说线程池中有哪些关键字 具体使用方法。5 说说hashMap 使用的是哪种数据结构,6说说hashMap 和 ConcurrentHashMap 的区别7为啥hashMap是线程不安全的?8锁机制怎么使用的?9如何查看linux 内存占......
2019-07-23 17:25:23 13641 18
原创 mysql5.7.23安装详细过程
1.百度云网盘:https://pan.baidu.com/s/17ci5OcDf-bt10H7r_Hi2pw 提取码:0wmq2下载后可以把解压的内容放到你的安装目录下,我的是在E盘:E:\mysql如下图:此时加压后的文件中没有data目录和ini文件3.在E:\mysql目录下新建my.ini文件,复制如下内容[mysqld]#设置3306端port ...
2018-08-12 13:31:04 47305 26
原创 真的有哥们年前提离职,到底经历了什么?又该如何准备自我介绍?
好多小伙伴面试时,不知道怎么做自我介绍,这里给大家一个模版参考,可以基于如下模版进行改造:面试官,你好,我叫 xx,毕业于 xx 大学,毕业之后分别就职于小红书、饿了么、字节跳动,目前工作经验 8 年,大数据专家岗位;在小红书期间,主要负责 C 端用户行为数据建设,包含穿搭、健身塑性等业务线的数据建模等;2020 年 2 月 入职饿了么 ,负责饿了么优选营销离线、实时数仓建设,基于饿了么优选营销活动的参与情况。对优惠券、红包、促销、现金等营销活动数据整合以及用户补贴策略的相关优化调整。
2025-01-16 12:42:42 198
原创 Tiktok难民纷纷涌入小红书,小红书杀疯了!!! 现在想进小红书,都会被问到哪些内容?
大家好,我是土哥,一位被大数据开发耽误的歌手。这两天,小红书的程序员们怕是夜不能寐,白天维护国内环境稳定,到了晚上还得陪着众多漂亮国的网友。这事说来话长,咱们长话短说。由于 TikTok 在美国即将面临禁令,许多美国用户为了避免 Tiktok 被封掉导致账户无法使用,因此他们转向了其他中国社交媒体平台,如小红书, 同时自称为:TikTok Refugee ~这下可不得了了,这两天直接在 APP Store 上面把小红书的下载量干到了第一。
2025-01-14 22:42:26 525
原创 本以为PDD挂了,结果开了50万SSP
大家好,我是土哥。2024 届校招已然落下帷幕,互联网大厂为将优秀人才招致麾下,纷纷使出浑身解数。在薪资待遇方面,更是各有千秋。这里给大家分享一位2024届求职的小伙伴,PDD 非技术岗拿到 50w 的 SSP offer~我盆友圈的一个粉丝,之前和土哥交流,说她投递的PDD 上海岗位,从面试完到开奖,中间过了快2个月,本以为都挂了,结果开出了50w,真是高兴了很久。土哥听到这个消息,替她感到非常高兴,校招生,一入职就已经赢到了起跑线,又有多少同学能拿到这个水平呢?
2025-01-13 21:51:59 964 1
原创 腾讯QQ音乐3面总监提问,咋这么有意思~
大家好,我是土哥。之前有位同学,在土哥的辅导下,居然飘了,当腾讯酷我音乐 HR 看完他的简历后,想邀约他面试,他直接一口回绝了。给的理由如下:目前只想面腾讯 QQ 音乐或者腾讯内部的岗位大厂流程已经到 offer 审核阶段了基于上述两个条件,所以暂时放弃面试。当土哥看到他的回复后,问到为啥只想面之类的。他回复:腾讯音乐目前包含酷狗音乐、QQ音乐、酷我音乐,毫无疑问,QQ 音乐占据主导地位,同时酷狗音乐盈利也不错,只有酷我音乐发展曲折,同时入职签合同时,还不是签约腾讯主体,所以不想面~
2025-01-13 15:50:45 68
原创 《大数据面试通关》(第十四讲)——10 大业务场景 500 个离线实时指标
《大数据面试通关》(第十四讲)重点介绍一下在数仓场景中,10 大业务场景 500 个离线实时指标。
2023-10-22 12:38:39 908
原创 Flink 1.15.0 单独编译 runtime 模块
问题当在业务代码编写时,不可避免会涉及到对 Flink 源码中的一个或几个模块进行频繁更改,更改之后,需要验证代码的准确性,对需要对 Flink 源码进行编译打包。本文以Flink1.15.0 为例:当对 Flink 1.15.0 进行打包编译时,整体编译打包一次需要花费的时间在 30 分钟以上,如果频繁对其中一个模块进行代码修改,频繁打包,这样效率会非常低下。所以最好的解决办法就是:1、先对整体打包,在 flink-dist 添加不需要编译打包的配置项,形成 flink-dist.jar2、对
2022-05-20 11:55:35 1569
原创 大数据面试高频点Flink checkpoint 执行流程及优化方案
Flink checkpoint 核心知识点以优化方案,本文主要从以下几方面进行介绍:1 Checkpoint 执行流程2 checkpoint 执行失败问题分析3 非对齐checkpoint 优化方案4 动态调整 buffer 大小5 通用增量快照1 checkpoint 执行流程如上图所示,chechpoint 在执行过程中,可以简化为可以简化为以下四大步:在数据流中插入 checkpoint barrier;每执行到当前算子时,对算子 sta
2022-05-02 15:39:34 1278 2
原创 蚂蚁金服—JAVA实现全排列
分享一道蚂蚁金服JAVA实现全排列的代码在这里插入代码片package com.lyz.dataStructure.LeetCode;import java.util.List;import java.util.ArrayDeque;import java.util.ArrayList;import java.util.Deque;public class Solution{ public static void main(String[] args) { int
2022-04-28 14:48:34 987
原创 4000字全面了解小红书数据平台工程师(实时方向)社招面试内容
大家好,我是土哥。周五晚上过来卷大家了,今天为大家带来一位读者面试小红书的 数据平台工程师(实时方向)面经。面试时间:72 分钟面试方向:数据平台工程师(实时方向)面试工具:赛码网面试难度 : ⭐⭐⭐⭐原文链接:小红书数据平台工程师(实时方向)社招面经(附答案)流计算平台面试官: 不用自我介绍了,直接介绍一下流计算平台纳尼?好高冷啊!!具体自我介绍请查看: 58同城大数据开发社招面经(附答案)面试官:1 你们的 UDF 是怎么管理的?当自定义 UDF jar 后,如果是
2022-02-21 11:41:26 2349 2
原创 Flink on Yarn 远程 debug 应用提交流程及源码分析
采用flink 1.13.2版本对flink on yarn per-job 模式进行流程分析及源码调试
2021-12-13 10:34:36 2935 6
原创 36 张图详解ElasticSearch 原理+实战知识点
大家好,我是土哥今天为大家带来流计算领域经常使用的组件 ElasticSearch,本文通过原理+实战操教程带领大家快速学会 ElasticSearch 搜索引擎,以下内容全部经过实战操作,可以根据文档进行学习~大纲如下:1 ElasticSearch 概述1.1 全文搜索引擎小伙伴们经常使用 google 或者百度进行搜索内容,在输入框中输入关键字,这个时候,网站会将包含 关键字 的所有网页返回,大家有没有想过,为什么输入关键字就可以查到结果呢?同时网站上返回的页面内容大多都是一些 非结构化
2021-12-06 14:50:27 26928 2
原创 全网最好懂的Kafka面试知识点总结大全【图文并茂、更易理解】
整理了一下 Kafka 面试的连环问题,保证你看完后,对 Kafka 有了更深层次的了解。全文总结的 Kafka 题目之间的 关联性 很强,本文将通过 问答 + 图解 的形式 由浅入深 帮助大家进一步学习和理解 Kafka 分布式流式处理平台。全文总计 1 万字、28 个知识点、40 张原理、流程图。提纲如下:正文⭐ 1、 什么是 kafka ?Kafka 起初是由 Linkedin 公司采用 Scala 语言开发的一个多分区、多副本且基于ZooK
2021-12-06 10:12:55 1470 9
原创 文章硬不硬核,你说了算,土哥怒肝大数据学习路线一条龙!
前言大家好,我是土哥。随着读者数量的不断增加,从8月底到10月中旬,3分钟秒懂大数据 公众号粉丝数已经突破7200+。短短几个月,看着越来越多的读者通过我写的文章而关注到该公众号,我好开心,同时也诚惶诚恐,害怕无法持续输出高质量文章,让读者失望。 但我知道,只有写出让读者心动的文章,才能得其心,土哥会好好加油,为大家持续输出精品文章的。有读者问我,对于大数据小白或者跨行业者,应该如何学习大数据呢?或者说有什么推荐的书籍或者网站?其实这个我很有心得啦,因为我研究生学的就是大数据与人工智
2021-10-19 14:46:13 1578 1
原创 Flink 1.14.0 内存优化你不懂?跟着土哥走就对了(万字长文+参数调优)
关注微信公众号:3分钟秒懂大数据 跟着土哥走,教你秒懂大数据前言大家好,我是土哥。自从写 Flink 系列文章,收到了太多读者的私信,希望我不断更新完善 Flink 专栏,为此,土哥还专门创建了一个文档,用来记录粉丝和读者在使用 Flink 组件时遇到的典型问题。由于 Flink 在大数据流计算中占据非常重要的位置,毫不夸张的说,已经被所有一二线互联网大厂所使用,并且 Flink 组件在 Apache 社区持续占据热...
2021-10-09 10:34:37 3622 7
原创 一口气搞懂「Flink Metrics」监控指标和性能优化,全靠这33张图和7千字(建议收藏)
前言大家好,我是土哥。最近在公司做 Flink 推理任务的性能测试,要对 job 的全链路吞吐、全链路时延、吞吐时延指标进行监控和调优,其中要使用 Flink Metrics 对指标进行监控。接下来这篇文章,干货满满,我将带领读者全面了解 Flink Metrics 指标监控,并通过实战案例,对全链路吞吐、全链路时延、吞吐时延的指标进行性能优化,彻底掌握 Flink Metrics 性能调优的方法和 Metrics 的使用。大纲目录如下:1 Flink Metrics 简介Flink Metri
2021-09-30 14:00:31 2385 10
原创 33张图解flink sql应用提交
前言大家好,我是土哥。这已经是我为读者写的第21篇Flink系列文章了。上周有粉丝在群里问,在流计算平台编写完Flink sql后,为什么通过一键提交按钮,就可以将sql提交到yarn集群上面了?由于现在各大厂对业务分层特别清晰,平台方向和底层技术开发会被单独划分,所以好多大数据同学编写完Flink Sql后,只需通过提交按钮将其提交到集群上,对背后的提交原理些许不太清楚。下面土哥将为大家揭开这层神秘的面纱,挖掘Flink Sql背后的提交原理和源码设计。(硬核文章,建...
2021-09-22 12:05:44 2452 8
原创 Flink1.13.2三种方式安装部署
有位Flink初学者问我有没有Flink的安装教程,看到这后,土哥二话不说直接安排上。以下教程全部使用 Flink1.13.2版本,在普通用户下面部署:1、Standalone部署版本要求:版本节点部署方式flink-1.13.2-bin-scala_2.11.tgz192.168.244.129standalone1.1 将软件安装包放入集群中1.2、软件包解压tar -zxvf flink-1.13.2-bin-scala_2.11
2021-09-22 11:49:02 10961 13
原创 漫画 | 字节一面:求无重复子串的最长子串
大家好,我是土哥。作为一名大数据算法工程师,需要有一些算法功底,但是学习算法又非常枯燥,冰冷的 文字+代码 往往使大部分读者在学习算法的道路上半途而废。今天呢,土哥就用 漫画+动图 的风格让我的读者轻松、愉快的学习算法,毕竟故事今天,小笨猪 阿土 收到了字节跳动的一面邀请邮件,约定3天后面试。这可把 阿土 高兴坏了,但是 阿土的算法水平比较差,他听说字节跳动每轮面试必考算法,所以心情很忐忑。这个时候,他的好朋友小美猪 阿梅 来找她玩耍,看到小笨猪闷闷不乐,于是问起了缘由,当得知字节跳动每轮都考
2021-09-13 10:22:23 1317
原创 重磅! | Flink1.14新特性预览
欢迎加博主微信:threeknowbigdata,拉你进大数据群、Flink流计算群大家好,我是土哥。目前在某互联网大厂担任大数据算法工程师。今天在查看Flink源码时,发现Flink1.14修复了很多bug,并且提了很多PR,其中完成了33个重要的新特性及优化。Bug修复可见部分截图:Improvement可见部分截图:新版本预计1-2周之内会发布,下面我将带领大家查看一下 Flink1.14的新特性都有哪些?1、流批一体优化流批一体其实从 Flink 1.9 版本开始就受到持续的关注
2021-09-08 20:12:36 1954 5
原创 Kakfa-Flink-Hive集成原理和实战代码
大家好,我是土哥。目前在某互联网大厂担任大数据算法工程师。今天有位粉丝在群里发信息,问有没有Flink DDL的使用资料,表示自己是为刚入门的学习者。为了让这位粉丝快速学会 Flink DDL 使用步骤,下面我将通过Kafka - Flink -Hive这个案例,讲解一下原理,并附上实战代码。1、Flink-Hive理论1.1、Flink-Hive介绍在Flink 1.11 版本中,社区新增了一大功能是实时数仓,可以通过kafka,将kafka sink端的数据实时写入到Hive中。为实现这
2021-09-07 13:55:35 1251 5
原创 Flink面试大全总结(全文6万字、110个知识点、160张图)
添加作者微信:threeknowbigdata,备注Flink,获取文章PDF版本Hello,各位大数据学习爱好者,我是3分钟秒懂大数据公众号的作者土哥,目前在杭州某互联网大厂担任大数据算法工程师,组内专注于Flink流式计算组件以及AB融合技术,为了让更多朋友更清晰的了解流式计算组件,现在我以面试的方式为大家全面总结了Flink所涉及的知识点,全文总共6万字,涉及各种原理,以及源码分析,图片是一张张绘制而出,欢迎大家进行解读!在互联网行业,我们都知道薪资结构跟岗位存在直接关系,如下面这幅关..
2021-08-31 10:47:20 2422 8
原创 史上最完整的AirFlow2.1.2版本安装教程
hello,大家好,我是阿周,上周我们讲解了AirFlow的一些基本概念,请看文章:学会AirFlow调度工作流平台,让你告别加班,老板还会升值加薪,但是只知道理论知识是不行的,所以接下来我将带领大家一块安装部署,通过实战学会airflow。1、Anaconda环境准备由于Airflow2.1.2版本依赖于python3高阶版本,但是服务器中一般默认python2.7.5版本,如下图:所以,我们直接通过部署miniconda,创建虚拟python3环境就可以满足airflow的要求。1.
2021-08-17 11:45:25 3392 9
原创 14天算法入门-第2天-双指针
关注并标星微信公众号3分钟秒懂大数据每天1次,打卡阅读获取AI大数据技术、面经、内推信息1、题目介绍:给你一个按非递减顺序排序的整数数组nums,返回每个数字的平方组成的新数组,要求也按非递减顺序排序。2、示例如下:3、解题思路:我们可以使用两个指针分别指向位置 0和 n-1,每次比较两个指针对应的数,选择较大的那个逆序放入答案并移动指针。这种方法无需处理某一指针移动至边界的情况,读者可以仔细思考其精髓所在。4、代码如下...
2021-08-14 11:20:21 814
原创 14天算法入门-第1天-二分查找
Hello,各位小伙伴,我们都知道,在求职阶段,算法被作为大厂面试的一个核心考点,本阶段我将带领大家通过14天执行一个算法入门计划,具体内容如下:算法入门:第1天:二分查找第2天:双指针第3天:双指针第4天:双指针第5天:双指针第6天:滑动窗口第7天:广度优先搜索 / 深度优先有搜索第8天:广度优先搜索 / 深度优先有搜索...
2021-08-14 11:07:51 813
原创 Spark-SQL绑定原理深入分析
上一篇文章Spark-SQL解析原来如此简单讲到了Spark-SQL通过Antlr4生成未解析的LogicalPlan。此时的LogicalPlan是Unresolve的,需要通过Catalog来绑定UnresolvedRelation 和UnresolvedAttribute,生成解析后的LogicalPlan。在Spark-SQL中,Catalog主要用于各种函数资源信息和元数据信息(数据库、数据表、数据视图、数据分区与函数等)的统一管理。Spark-SQL中的Catalog体系...
2021-08-14 11:01:20 1277 1
原创 硬核!10分钟解读Flink 状态原理(1)
关注并标星微信公众号3分钟秒懂大数据每天1次,打卡阅读获取AI大数据技术、面经、内推信息原文链接:硬核!10分钟解读Flink状态原理(1)前言关于Flink状态存储,同样是面试中的重点考察对象,经常被问到的问题如下:(1)什么是状态?(2)Flink状态类型包含哪些?(3)Flink 广播状态模式了解不?(4)Flink状态接口包含哪些?(5)Flink状态如何存储?(6)Flink状态如何持久化?(7)Flink状态过期后,如何清理?(8)状...
2021-08-04 10:10:04 220
原创 详解ROC/AUC计算过程
ROC和AUC定义ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。ROC曲线的面积就是AUC(Area Under the Curve)。AUC用于衡量“二分类问题”机器学习算法性能(泛化能力)。Python中sklearn直接提供了用于计算ROC的函数[1],下面就把函数背后的计算过程详细讲一下。计算ROC需要知道的关键概念首先,解释几个二分类问题中常用的概念:True Positive, False Positive, True
2021-08-03 19:26:28 1042
原创 在pycharm中配置anaconda的虚拟环境
环境配置环境的配置分为三步: 配置虚拟环境和安装程序所需要的包以及在pycharm中打开项目配置虚拟环境配置虚拟环境需要通过anaconda来完成,anaconda的下载地址为:https://docs.conda.io/en/latest/miniconda.htmlwindows用户下载python3.8的miniconda即可下载完毕之后双击安装即可,注意一点这些一定要选中程序安装完毕之后打开windows的命令行(cmd),输入conda env lis...
2021-07-16 11:32:24 973
原创 语义分割预处理与后处理方法
深度学习发展到现在,各路大神都发展出了各种模型。在深度学习实现过程中最重要的最花时间的应该是数据预处理与后处理,会极大影响最后效果,至于模型,感觉像是拼乐高积木,一个模块一个模块地叠加,拼成最适合自己的模型。1 数据预处理1.1 图像切割 一般而言,训练集会是一整张大图,所以需要自己切割成小图训练,可以做切割,也可以在训练时划窗读取,最好先做切割,可以检查数据。切割的图片大小根据服务器性能来看,12G的GPU切为256或512的比较合适一些。 切割的时候最好有重叠的切割,至于重叠率可以根据实际情况
2021-07-15 15:22:33 1659 1
原创 深度学习实战-Python教程
Python入门教程 以熟练使用Pytorch完成深度学习模型为目标,简单介绍Pytorch涉及到的Python基础(Python其它知识可以在遇到后再学习,先动手)。 这篇教程并不涉及Python的复杂方法,教程的结构如下: 1.Python实例 2.Python基础 - 2.1 Python数据类型 - 2.2 Python语法 3.Numpy 4.类 5.文件读写 6.错误分析3.Numpy3.1Num...
2021-07-15 15:17:37 393
原创 怎么使用永久免费的GPU与TPU服务器colab
什么是 Colaboratory?借助 Colaboratory(简称 Colab),可以在浏览器中编写和执行 Python 代码,并且:无需任何配置免费使用 GPU,TPU轻松共享 colab适合做一些模型的调试,colab下载常见的训练集网站的数据贼快,像kaggle也可以直接用api下载。colab的使用 使用火狐浏览器可以打开colab,先看一下colab编辑器的页面,类似Python的jupter,可以按块运行,不用配置,目前是默认配置了tensorf...
2021-07-15 15:09:19 1272 1
原创 CenterCrop图像裁剪原理
CenterCrop模式解决的就是:图片要去两头,留中间 图片要填充满控件 我们按照Image与ImageView的宽高比差值,分两种情况进行讨论。 假设原始图片高h,宽w , Imageview的高y,宽x ,比较两者高宽比。裁剪出的图称为Image1: 1、 当 y / x - h / w > 0 时 说明Imageview的高宽比大于图片的高宽比,如图所示:左图实线标示的是图片Image的高和宽,右图是Imageview。 我们需要从Image的中间按照...
2021-07-14 14:31:04 16011 1
kernel-headers-3.10.0-957.el7.x86_64.zip
2021-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人