MISAYAONE
码龄7年
  • 3,284,436
    被访问
  • 541
    原创
  • 2,029
    排名
  • 2,446
    粉丝
  • 53
    铁粉
关注
提问 私信

个人简介:勤学如春起之苗,不见其增,日有所长。

  • 加入CSDN时间: 2015-10-23
博客简介:

MISAYAONE的博客

博客描述:
坚持、果敢、勤思、沉淀
查看详细资料
  • 7
    领奖
    总分 3,367 当月 66
个人成就
  • 获得2,665次点赞
  • 内容获得2,004次评论
  • 获得5,970次收藏
创作历程
  • 34篇
    2022年
  • 56篇
    2021年
  • 1篇
    2020年
  • 79篇
    2019年
  • 44篇
    2018年
  • 263篇
    2017年
  • 73篇
    2016年
成就勋章
TA的专栏
  • 博文分享
    90篇
  • 数据仓库之『浅尝』
  • C++疑难杂症知识点
    140篇
  • MapReduce
  • 计算广告阅读理解
  • Linux 基础知识
    3篇
  • Sql 学习
    5篇
  • Flask IP 鉴权需求
    4篇
  • Python实战小程序
    13篇
  • Linux 常用命令
    8篇
  • Shell 脚本学习
    2篇
  • ES 涉及知识点
    3篇
  • 个人公众号
  • Matlab工程应用
    15篇
  • C++Primer 第五版习题答案详解
    76篇
  • 三维建模与渲染技术
    22篇
  • 跟我一起深度探索C++对象模型
    15篇
  • Linux入门学习教程
    23篇
  • 【C++Primer习题】
    78篇
  • 【python基础知识】
    19篇
  • 【python实战小程序】
    9篇
  • 【排序算法总结】
    10篇
  • 【Google C++Style Guide】
    9篇
  • 【牛客网学习笔记】
    12篇
  • 【遇到的实际编程问题】
    25篇
  • 【Matlab】
    14篇
  • 【三维建模仿真】
    18篇
  • 【想写就写@@】
    160篇
  • 【研究生课程学习总结】
    7篇
  • 【C++阶段性学习总结】
    2篇
  • 【算法小白入门】
    6篇
  • 【数据结构】
    12篇
  • 【操作系统】
    5篇
  • 【Leetcode】
  • 【论文相关】
    3篇
  • 【会编程的段子手】
    8篇
  • 【观影感悟】
    5篇
  • 【C++进阶教程】
    15篇
  • ~~~~~分割线~~~~~~
    3篇
  • 【PPT技巧】
    3篇
  • 【新人题学到的东西】
    4篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

为什么 Redis 快?

为什么redis 是单线程的? - 云+社区 - 腾讯云阿里P8架构师谈:Redis为什么是单线程、及高并发快的3大原因详解 - 知乎Redis为什么是单线程?为什么有如此高的性能? - 掘金分类: Redis | Kaito's Blog...
原创
发布博客 2022.04.06 ·
774 阅读 ·
0 点赞 ·
0 评论

Git 解冲突

1:怎样最大程度避免冲突?如果和别人改的不是同一个文件,最好先 git pull 再 git add如果要改同一个文件,那么需求拆解、分工是否明确?实在不行再一起解冲突2:解冲突步骤1:git fetch origin2:git rebase origin/master 或者 git pull --rebase(此过程如遇到坑,需要 checkout 所有的未提交文件)3:然后打开冲突文件:conf/global.yaml修改冲突处,其实就是删掉旧的东西4:git
原创
发布博客 2022.04.06 ·
375 阅读 ·
0 点赞 ·
0 评论

Spark 多维分析

grouping sets / with cube / with rollup 多维分析问题Spark SQL 的 GROUP BY 子句 | Spark SQL 教程 - 盖若https://www.imooc.com/article/271662
原创
发布博客 2022.04.06 ·
1140 阅读 ·
0 点赞 ·
0 评论

指标体系相关知识

带着问题看博客1:什么是指标体系?2:指标的分类?3:为什么需要指标体系?4:指标体系指标分级?5:指标体系建模方法?6:怎样结合落地业务场景?7:带来实际收益?综述文章:数据分析指标体系综述 - 知乎快手的指标体系落地方案:快手如何搭建一个好的数据指标体系?_浪尖聊大数据-浪尖的博客-CSDN博客搭建一个好的指标体系方法:一文讲透,关于搭建指标体系,整理的重要知识点都在这里了_帆软商业智能技术的博客-CSDN博客...
原创
发布博客 2022.04.02 ·
68 阅读 ·
0 点赞 ·
0 评论

CountDistinct 去重实现原理

Hive / Spark / Kylin 中 count distinct 的实现原理:重点关注其中的 多维度 count distinct 的实现方式大数据SQL COUNT DISTINCT实现原理在 Spark 中的优化:1:两阶段聚合(spark)2:bitmap(UDF包装RoaringBitmap,1. 在预聚合时将COUNT DISTINCT字段值写入Bitmap,并将Bitmap序列化成Binary类型字段保存。2. 在重聚合时,读取并反序列化Bitmap字段,...
原创
发布博客 2022.04.01 ·
1586 阅读 ·
0 点赞 ·
0 评论

维度建模优缺点

维度建模的优缺点_aijiudu的博客-CSDN博客_维度建模的优缺点【数据仓库】维度建模的优缺点_大跃ET的博客-CSDN博客_维度建模优缺点最重要的总结:维度建模很难反向推导,即难以根据维度模型反推回一般关系模型。万一模型有错误,整个数据仓库就不可信赖,需要从业务数据库重新加载,而这个又耗时又影响业务系统,还有可能丢失历史数据。所以底层一般还用传统数仓,一般就是没有太多逻辑转换的;维度建模用于数据集市。...
原创
发布博客 2022.03.31 ·
1007 阅读 ·
0 点赞 ·
0 评论

小文件带来的问题及解决方案

小文件带来的问题:为啥集群小文件治理那么重要,你真的懂吗?_涤生大数据的博客-CSDN博客1:对 NameNode 的影响 -> 元数据管理2:对 DataNode 的影响 -> 存储效率、访问性能3:对计算的影响 -> 计算性能存储系统衡量指标:1:IOPS(Input/Output Per Second)单位时间内系统能处理的I/O请求数量2:数据吞吐量解决方案:1:从源头避免小文件问题repartition/coalesce 和...
原创
发布博客 2022.03.31 ·
1752 阅读 ·
0 点赞 ·
0 评论

Bitmap 详析

用处:排序、去重、查找优点:时间和空间复杂度会大幅下降缺点:1、时间和空间依赖最大数字,数据密集才有优势。2、数据不能有重复#私藏项目实操分享#【难点攻克技术系列】「海量数据计算系列」如何使用BitMap在海量数据中对相应的进行去重、查找和排序_李浩宇/Alex的技术博客_51CTO博客排序时的空间时间复杂度BitMap算法_-柚子皮-的博客-CSDN博客_bitmap...
原创
发布博客 2022.03.31 ·
67 阅读 ·
0 点赞 ·
0 评论

Doris 物化视图

为什么会有物化视图?主要是为了满足用户,既能对原始明细数据的任意维度分析,也能快速的对固定维度进行分析查询的需求。物化视图的定义:查询结果预先存储起来的特殊的表Doris 的物化视图特殊之处:用户的查询会根据规则自动匹配到最优的物化视图怎样选择最优:根据前缀索引是否能匹配到,以及聚合程度的高低来选出一个最优的物化视图。最后自动改写 SQL细节:Doris核心功能介绍 -- 数据模型和物化视图、​​​​​​四、Doris物化视图 - 天戈朱 - 博客园
原创
发布博客 2022.03.31 ·
247 阅读 ·
0 点赞 ·
0 评论

Doris 优化方法

最全的Apache Doris的性能优化实战技巧(收藏版)|uniq|apache|视图|数据量_网易订阅主要从三个方面考虑:1:数据模型的选择、分区及分桶设计、索引选择。2:物化视图3:SQL 本身优化
原创
发布博客 2022.03.31 ·
308 阅读 ·
0 点赞 ·
0 评论

拉链表断链、交叉链判断及处理方式

仓库拉链算法的数据恢复机制(重跑中间任意一天保证数据的准确完整性) - 极客分享 (geek-share.com)系列|数仓实践之『拉链表』拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记录历史,记录一个事务...-雪球 (xueqiu.com)...
原创
发布博客 2022.03.28 ·
181 阅读 ·
0 点赞 ·
0 评论

数仓的极致分层

一些基础的层级:(92条消息) 数据仓库--数据分层(ETL、ODS、DW、APP、DIM)_lcl_bigdata的博客-CSDN博客_dim层针对不同业务场景的分层:最全面的数仓分层剖析,一文搞定企业数仓分层 | 人人都是产品经理 (woshipm.com)理解DWT和STG两种比较常见也少见的层级有实际举例的层级介绍:(92条消息) 数仓分层(ODS、DWD、DWS、DWT、ADS)和数仓建模_billows9297的博客-CSDN博客_dws dwt电商DWT
原创
发布博客 2022.03.28 ·
61 阅读 ·
0 点赞 ·
0 评论

​美团数据面试

美团-数据仓库高级工程师面试(一) (qq.com)面试系列 | 大厂数据开发面试经验 (qq.com)
原创
发布博客 2022.03.28 ·
757 阅读 ·
0 点赞 ·
0 评论

数据工作的流程和规范性

数据开发不规范,贪图快和简单方便,其实是在伤害数据仓库的正确性和可维护性。20211229-基础数据开发流程 - 简书 (jianshu.com)数据开发流程 - 巨婴宝宝 - 博客园 (cnblogs.com)(58条消息) 如何避免数仓模型“烟囱式”建设_大数据星球-浪尖-CSDN博客数仓开发应避免的10个陷阱 - 知乎 (zhihu.com)建设数仓的血泪教训!(建议收藏) - 知乎 (zhihu.com)数仓治理之数据任务重构实践 - 开发者头条 (toutiao
原创
发布博客 2022.03.28 ·
57 阅读 ·
0 点赞 ·
0 评论

大数据压缩算法总结

1:最主流的四种gzip 压缩比较高,不可 split (行文件),hadoop 自带 (apache 协议)lzo 支持 split,但需要额外的索引文件,自定安装( GPL 协议)snappy 压缩速度快,压缩比一般,不可 split (行文件),自定安装( GPL 协议)bzip 压缩比最高,但是压缩慢,自定安装压缩格式gzip/snappy/lzo/bzip2 比较与总结_zzhongcy的博客-CSDN博客_lzo压缩比例1. Data Modeling in Hadoop
原创
发布博客 2022.03.21 ·
2202 阅读 ·
0 点赞 ·
0 评论

大表 join 大表的思路

参考 OLTP 的优化方式:1:限制输入的行 (care 条件要写全)2:限制输入的列 (无用的列不要 select )3:手动先分区再 join4:采用 map 端的预聚合 map_side join5:抽取倾斜 key 然后加随机前缀处理,倍数处理 B ,再 join,然后结果再 union 回去。大数据开发实战:Hive优化实战3-大表join大表优化 - shaomine - 博客园SQL优化技巧之超级大表和超级大表的连接优化 - 知乎...
原创
发布博客 2022.03.16 ·
2160 阅读 ·
0 点赞 ·
0 评论

Spark 3 新特性

Spark 3.0.0正式版发布,开发近两年新增了哪些特性? - 大数据 - dbaplus社群:围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙。介绍较详细。介绍了 AQE 和 DPP 的来源背景:基于动态统计信息的优化Spark3.0 新特性(部分) - 知乎介绍了与数仓模型之间的联系:基于运行时推断的信息来进一步进行分区裁剪。这在星型模型中很常见,星型模型是由一个或多个并且引用了任意
原创
发布博客 2022.03.16 ·
3416 阅读 ·
0 点赞 ·
0 评论

为什么块大小为128M?

(70条消息) 一篇讲懂为什么HDFS文件块(block)大小设定为128M_攻城狮Kevin-CSDN博客_hdfs块大小为什么是128mHDFS文件块大小为什么是128M?(重点)_Sun's Blog-CSDN博客_hdfs块大小为什么是128m最佳传输损耗理论...
原创
发布博客 2022.03.06 ·
173 阅读 ·
0 点赞 ·
0 评论

数仓如何优化

调度优化(生产测试环境分离、任务优先级划分、提前跑、减少层级依赖)模型优化 (模型选择、拆表、合表、中间层建设、合理分区、拉链表)计算优化(减少输入数据、避免数据倾斜)同步优化(合理参数设置)大数据数仓建设性能优化方案 - 简书 (jianshu.com)调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案 - 知乎 (zhihu.com)...
原创
发布博客 2022.03.06 ·
1404 阅读 ·
0 点赞 ·
0 评论

分位数计算

什么是分位数?approx_percentile 聚合函数 - Azure Databricks | Microsoft Docs如何通俗地理解分位数? - 知乎 (zhihu.com)简单理解分位数就是一个从大到小排列的队伍中,用几分之几的形式来表达你当前所处的位置。比如在中间,就是1/2分位数,其他再比如1/4分位数,2/5分位数等等。函数表达式:Functions - Spark SQL, Built-in Functions (apache.org)可以直接解决
原创
发布博客 2022.03.06 ·
1382 阅读 ·
0 点赞 ·
0 评论
加载更多