自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

木野归郎

致力于大数据、人工智能技术分享

  • 博客(99)
  • 收藏
  • 关注

转载 【面试题】百度数据开发面试,收藏必备

你是不是一直在我心里,为啥我觉得今年的冬天好暖...百度数据开发面试题_kafka顺序性是如何保证的?_过程中有没有遇到过数据倾斜?使用hive时候出现过数据倾斜设置参数:set hive.groupby.skewindata=true空值/字段类型不一致/热门商品数据_flink如何保证精准一次性?_flink如何保证端到端一致性?_hive的底层执行原理?_java object占有一个字节,...

2022-11-18 13:30:44 457

转载 【面试题】阅文后端开发kpi面,收藏必备

说好一起挨过寒冬,你却偷偷装了暖气...阅文后端面试题_jvm垃圾回收。_cms和G1区别?_String可变吗?说一下原因?_Mysql聚簇索引和非聚簇索引区别?_说一下什么是回表?_数据库索引失效情况?_redis中常用的数据结构有哪些?_redis缓存穿透、缓存雪崩?_Spring事物失效场景有哪些?_CurrentHashMap如何保证线程安全的_CurrentHashMap中的segme...

2022-11-18 13:30:44 452 1

转载 【转载】腾讯欧拉数据治理平台思考与实践

点击下方关注01欧拉平台建设思路和目标首先简单介绍数据治理平台的建设思路。1. 数据治理的终态数据治理似乎成了一个人人都似懂非懂的词,甚至大有“人人要参与治理数据”的趋势,人人都知道数据治理要做啥、要做成啥,但人人都不知道数据治理啥时候能有结局。我觉得数据治理的最终目标是实现数据生产和应用的工业化。要实现数据工业化,可能会有 2 种场景案例:业务流程或数据模型较为固化、存算技术选型较为单一:如传统...

2022-11-17 10:12:12 436

原创 【面试题】京东大数据面试真题汇总,收藏必备

今年冬天冷的好慢,现在空气中吹的风还是暖的...京东大数据面试题_hive中都有哪些join操作?left join:以左侧为主表,返回记录与主表记录数相同,关联不上的字段为空。right join:以右侧表为主表,返回记录与主表记录数相同,关联不上的字段为空。full join:以两个表的记录为基准,返回两个表的记录去重之和,关联不上的字段为null。cross join:返回两个表的笛卡尔积结...

2022-11-17 10:12:12 728

转载 打不死的小强变身“半机械蟑螂”?请允许我尊称一声强哥

蟑螂,也就是人们常说的“小强”,是一种人人恨得咬牙、欲除之而后快的奇特生物。为啥说它奇特?是因为蟑螂有着极强的生命力和繁殖力,已经有数亿年的演化历史,在人类无数“拖孩”的打击下,依然能够顽强地生存下来。图|波罗的海琥珀内的蟑螂,至少有 4000 万到 5000 万年的历史。(来源:维基百科)按照现代的生物分类学,地球上约有 4000 多种蟑螂,其中仅有数十种会入侵人类家居,有数种会被人类当作宠物饲...

2022-09-15 20:21:16 259

原创 精简版 — Hive开发常用操作

大家好,我是小轩本文主要介绍了关于Hive常见的优化操作Join算子1、cross join优化例如下面两表需要作笛卡尔积直接使用cross join关联只会分配一个reduce,导致耗时严重,因此我们可以将小表扩充一列,并且复制n倍,然后进行left join操作。这样扩充几倍,就会分配几个reduce。下图为复制两倍的情形:这样就达到了笛卡尔积的效果。以某张表的计算任务为例,原始计算任务中使用...

2022-09-13 23:03:46 340

转载 一篇文章教会你使用Java内部类、成员内部类、静态内部类和方法内部类

一、内部类(一)什么是内部类?可以在类中再定义类,就叫做内部类,这个内部类所在的类,就叫做外部类。(二)内部类作用1.内部类提供更好的封装,把内部类隐藏在外部类之内,不允许同一个包中的其他类访问该类。2.内部类成员可以直接访问外部类的私有数据,因为内部类被当成外部类的成员。然而外部类不能访问内部类的实现细节(如内部类的成员变量)。二、成员内部类1.什么是成员内部类在一个类中可以定义成员变量、成员方...

2022-09-12 23:50:14 154

原创 灵魂拷问JVM,你被干趴了吗

大家好,我是小轩,Java内存模型在面试过程中必不可少,最近也是整理了一些笔记。Java的类加载过程jvm将.class类文件信息加载到内存并解析成对应的class对象的过程,注意:jvm并不是一开始就把所有的类加载进内存中,只是在第一次遇到某个需要运行的类才会加载,并且只加载一次主要分为三部分:1、加载,2、链接(1.验证,2.准备,3.解析),3、初始化一、加载1、类加载器上面已经提到了类加载...

2022-09-07 22:33:35 169

转载 知识图谱、物联网和数字孪生——智能供应链的数字基础设施

分享嘉宾:俞方桦 Neo4j 亚太地区售前和技术总监编辑整理:张宸宁 BOSS直聘出品平台:DataFunTalk导读:供应链问题的本质是数据的问题,传统关系型数据库由于其模式的限制,并不能胜任当代智能供应链对复杂关联关系的存储、查询和计算要求。图数据库以及图数据科学则为这一挑战提供了新的选择,并将与物联网、数字孪生一起构建智能供应链的数字基础设施。本文将从数据的角度分享当今智能供应链应当如何搭...

2022-09-04 09:22:41 970

转载 京东基于时序知识图谱的问答系统

分享嘉宾:商超博士京东硅谷研究院 研究员编辑整理:张存旺北航杭州创新研究院出品平台:DataFunTalk导读:本文将分享Temporal Knowledge Graphs方向的一个最新尝试,如何在时序知识图谱上去做问答系统,主要包括以下几部分:时序知识图谱背景介绍基于时序知识图谱的问答系统中的问题TSQA方法实验结果分析01时序知识图谱背景介绍首先介绍一下时序知识图谱的概念,时序知识图谱本质...

2022-09-03 16:19:49 729 1

转载 综述 | 图像去噪综合比较研究

编者荐语图像去噪的目标是从受噪声干扰的退化图像中尽可能恢复原始的真实图像,是图像进行后续处理的关键一步。文章介绍了一篇比较经典的多维图像去噪综述文章,非常适合新入门的同学。前言图像去噪(Image Denoising)是低层视觉(或者说是图像处理)中一个经典的问题,也是一个非常活跃的研究领域。图像去噪的目标是从受噪声干扰的退化图像中尽可能恢复原始的真实图像,是图像进行后...

2022-08-06 12:37:30 420

转载 中原银行实时风控体系建设实践

摘要:本文整理自中原银行数据平台中心开发工程师陈玉强在 Flink Forward Asia 2021 行业实践专场的演讲。主要内容包括:建设体系选型 & 架构应用场景建设成效Tips:点击「阅读原文」查看原文视频&PPT~01建设体系银行是经营风险的企业,对风险进行识别、衡量、定价和防范的能力是银行核心竞争力。中原银行构建了面向反欺诈、信用风险、运营风险...

2022-08-06 12:37:30 382

转载 《hive编程指南》读书笔记:模式设计

大家好,我是小轩这几天看了《hive编程指南》的模式设计,整理下知识点目录按天分区表关于分区唯一键和标准化同一份数据多种处理对于每个表的分区分桶表数据存储为表增加列使用列存储表总是使用压缩一、按天分区表按天划分表就是一种模式,每天一张表的方式在数据库领域是反模式的一种方式,按天划分的表建议使用分区表,hive通过where子句中的表达式来选择查询所需要的指定的分区,这样查...

2022-08-06 12:37:30 112

原创 (学习之路)Hive数据倾斜解决办法

‍大家好,我是小轩hive是基于大数据开发的一组用于数据仓库的api,其主要功能是将HQL(HIVE SQL)转换成MapReduce执行。所以对hive的优化几乎等于对MapReduce的优化,主要在io和数据倾斜方面进行优化。本文主要在以下几个方面进行介绍合并小文件压缩文件join倾斜优化group by倾斜优化合并小文件map针对每一个文件产生一个或多个map任务,......

2022-07-27 19:49:53 1752

转载 这些开源项目太棒了!

编程导航 每周新增资源优选特辑 16编程导航 致力于推荐优质编程资源 ????项目开源仓库:https://github.com/liyupi/code-nav跪求一个 star ⭐️哈喽大家好!我是编程导航的小编火宝。又到周末啦,不知道大家有没有注意到编程导航新增了许多免费的电子书籍呢?非常感谢小伙伴的无私分享,也欢迎大家多多推荐优秀资源哦~本周小编为大家精选了 5 个不错的...

2022-07-27 19:49:53 221

转载 《大数据之路》读书笔记:维度设计

大家好,我是小轩维度设计基础一、维度的基本概念维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述称为“维度”,维度是用于分析事实所需要的多样环境。维度使用主键标识其唯一性,主键也是确保与之相连的任何事实表之间存在引用完整性的基础。主键有代理键和自然键,它们都是用来表示某维度的具体值。但代理键是不具有业务含义的键,一般用于处理缓慢变化维;自然键是具有业......

2022-07-22 09:24:16 332

转载 这些城市都有哪些互联网公司?一文全知道!

除去超一线城市之外,一些新一线和二线城市也是大家毕业后选择比较多的,也是基于这一点,给大家整理了国内一二线城市的互联网公司这个系列。2022年校招薪资数据来自网络,主要以小程序offershow爆料为主)西安这里将按照互联网公司、手机厂、国企、外企和其他的顺序进行分享,并给出2022届的应届生薪资情况,这里薪资主要以开发岗为主。互联网公司1 阿里巴巴阿里巴巴目前在西安只有......

2022-04-27 14:42:49 3266

转载 浅聊数仓维度建模

今天我们来聊聊在数仓模型中举足轻重的维度建模。简单而言,数据仓库的核心目标是为展现层提供优质服务。其中包含ETL过程、数仓规范、数仓分层等建设流程,最终提供更清晰易用的展现层。维度建模的领域主要适用于数据集市层,它的最大的作用其实是为了解决数据仓库建模中的性能问题。1 数仓架构原则 在谈论维度模型前,我们先来聊聊数仓架构。数仓模型不只是考虑如何设计和实现功能,设计原则应该...

2022-04-20 09:45:39 162

转载 京东自适应数据倾斜处理算法

本文讨论了京东Spark计算引擎研发团队关于自主研发并落地数据倾斜解决方案,助力京东大规模离线计算场景的探索和实践。近年来,大数据技术在各行各业的应用越来越广泛,Spark自UCBerke...

2022-03-08 09:42:04 192

转载 Spark在供应链核算中的应用总结

一 业务背景(会计)核算是使用会计语言与方法,对产品业务的结果进行登记与反映,从而为利益相关者提供直观、准确、有价值的信息,主要服务对象是财务、审计、外部监管、合规以及管理层,同时核算也...

2022-03-07 11:55:51 486

原创 安装 | 企业版CDH服务器集群配置(详细)

大家好,我是小轩

2022-03-04 08:23:00 4715 1

原创 【推荐】Spark知识点

直接扫码进群,如果链接失效,可以后台留言或菜单栏找,备注【加群】客户那边需要快速出一个版本,开发的这块使用到的之前没怎么用过,比如用oozie调度spark程序时候,你可能在你本地调试代码...

2022-02-27 19:50:28 884

原创 峰回路转,柳暗花明

大家好,我是OnlyCoding

2022-01-06 22:31:06 1604

原创 后端开发、bigdata、cv、nlp实习+秋招面试交流群

后端开发、bigdata、cv、nlp实习+秋招面试交流群

2021-12-23 10:27:10 811

原创 后端开发、bigdata、cv、nlp实习+秋招面试交流群

后端开发、bigdata、cv、nlp实习+秋招面试交流群

2021-12-23 10:24:32 333 1

转载 进来看一下 不然不认识了

大家好,我是OnlyCoding刚开始的时候一直在想公众号名字和头像,最后还是把注意力放在了文章内容上面但是后来越来越觉得一个名字和头像是公众号的精髓,可以代表一个公众号的形象下面是公众号...

2021-12-15 13:29:24 59

原创 git对分支的操作

大家好,我是OnlyCoding自上次那篇文章介绍了git上传原理之后,这篇文章说一下git分支和冲突问题一般我们在开发过程中,会有一个稳定的版本,一个开发版本,现在开发版本上进行开发我们...

2021-12-15 13:29:24 592

原创 聊一下在二叉树上挂了几天的感受

点击上方链接,选择“关注”重磅干货,第一时间送达大家好,我是OnlyCoding还记不记得前几天我给大家整理的一些二叉树的题目拖了好久nou...就是这个在刷题的过程中思考更多的是还有...

2021-12-07 10:53:15 87

原创 二叉树高度和深度

高度和深度是相反的表示,深度是从上到下数的,而高度是从下往上数。 我们先来看看高度和深度的定义,某节点的深度是指从根节点到该节点的最长简单路径边的条数,而高度是指从该节点到叶子节点的最长简单路径边的条数。 注意:这里边的条数是规定根节点的深度和叶子节点的高度是0; 所以树的深度和高度是相等的,而对其他节点来说深度和高度不一定相等。 如 B和C节点深度都为1,因为从根节点到到该节点的边数为1,B的高度为2,而C的高度为1。 当然树的深度是3高度也是3...

2021-12-06 11:03:20 811

原创 使用git上传我们的故事

大家好,我是OnlyCoding今天是我们在一起的第n个100天我想可以开始上传我们之前的故事了还记得上上期那篇文章,我整理了21个关于树的算法题期待这周末和你相见,一起讨论可是我发现我和...

2021-12-03 16:31:00 287

原创 MovieLens官网数据集解释

https://grouplens.org/datasets/movielens/官网数据集地址MovieLensGroupLens Research已从MovieLens网站(http:...

2021-12-01 16:59:50 2433

原创 捉急.. 挂在二叉树上下不来了

点击上方,选择“关注”公众号重磅干货,第一时间送达大家好,我是OnlyCoding今天我有一些事情要和大家说说很多人问你每天有那么多时间去学习、去整理这些东西吗?说真的,没有其实每天写公众...

2021-11-29 20:47:02 1727

转载 Flink(一)-基本概念

前言:前段时间因为项目需求,需要开发一个实时采集分析日志的任务,最后选择的计算框架是Flink。项目完成后,基本上就没再接触。但总觉得既然用过了,不了解,不清楚,日后又需要还得重新看,很亏啊 ! 所以决定抽空总结一下,一方面可以跟大家交流分享一下新的学习内容,共同进步;另一方面也能更深入的了解传说中的下一代大数据实时计算神器。 这篇文章主要按照以下思路,简单的交流一下Flink的基本概念和用途。自知资历尚浅,见闻有限,如有纰漏还望指正! 1. Flink 简介在当前的互联网用户,设备,服务等激增的时代下,其

2021-11-27 15:58:08 189

原创 学了又忘又学的 LSTM RNN(二)

点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩在上一篇文章学了又忘又学的RNN(一)中回顾了什么是RNN,以及RNN和普通神经网络有什么不一样RNN...

2021-11-23 10:45:25 633

原创 学了又忘又学的 RNN(一)

点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩这两天在忙着完成手头上的任务,没来得及更新任务也涉及到NLP领域方面的知识,关于这个领域我就不做过多的......

2021-11-22 23:23:56 680

原创 数据分析中常见的存储方式

点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩这两天整理了在数据分析中常见的5种存储格式内容比较多,只是简要整理,仅供大家学习和选择后面会对使用到的...

2021-11-16 15:46:56 2908

原创 简单聊聊分布式系统架构

点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩今天给大家分享下一个系统都设计到哪些层不同互联网公司的业务范围有很大差别,但抽象的去看不同公司架构基本...

2021-11-12 15:47:05 2210

原创 一篇文章让你理解Java继承那些事

点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩前几天有人在后台问我java继承问题是C继承A和B继承A,C继承B一样吗?目录什么是继承?继承的语法?...

2021-11-09 13:20:23 305

原创 一位优秀学长的面试经验

点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩今天给大家分享一位优秀学长的面试经验总结,是我前几天让他找时间总结的,机会难得,可以先收藏。本人是98...

2021-11-04 19:31:01 721

原创 金九银十,金三银四(下)

点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩接着上一篇主要内容大表怎么优化?MySQL 执行计划了解吗?bin log/redo log/undo...

2021-11-02 11:19:05 375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除