大数据精读周刊
码龄8年
关注
提问 私信
  • 博客:1,269,194
    社区:1,939
    问答:460
    动态:287
    1,271,880
    总访问量
  • 506
    原创
  • 1,400
    排名
  • 7,782
    粉丝
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2016-07-16
博客简介:

大数据精读周刊

博客描述:
公众号:大数据精读周刊
查看详细资料
  • 原力等级
    成就
    当前等级
    7
    当前总分
    4,247
    当月
    38
个人成就
  • 大数据领域新星创作者
  • 博客专家认证
  • 获得2,775次点赞
  • 内容获得1,268次评论
  • 获得4,567次收藏
  • 代码片获得1,747次分享
创作历程
  • 35篇
    2024年
  • 3篇
    2023年
  • 35篇
    2022年
  • 155篇
    2021年
  • 114篇
    2020年
  • 21篇
    2019年
  • 67篇
    2018年
  • 115篇
    2017年
  • 39篇
    2016年
成就勋章
TA的专栏
  • 大数据面试指南
    1篇
  • 数据库
    19篇
  • 编程语言
    7篇
  • 数据建模
    5篇
  • 离线数仓
    10篇
  • 实时数仓
    1篇
  • 面试题
    12篇
  • 最近学习
    5篇
  • 数据仓库
    47篇
  • 剑指Offer
    16篇
  • 大数据
    40篇
  • 算法
    22篇
  • 计算机基础综合
  • 数据结构
    25篇
  • 操作系统
    22篇
  • 计算机网络
    9篇
  • 计算机组成原理
    3篇
  • 微机原理
    8篇
  • 网站开发
    1篇
  • Java EE
    42篇
  • 面试题OLD
    4篇
  • 实战
    21篇
  • Python数据采集
    11篇
  • Python基础入门
    20篇
  • PHP
    42篇
  • Web developer
    31篇
  • Ajax
    11篇
  • Smarty
    4篇
  • 服务器分布式缓存
    22篇
  • Redis
    12篇
  • Memcache
    11篇
  • 其他
    3篇
  • 机器学习
    23篇
  • 计算机视觉
    9篇
  • C/C++
    5篇
  • 软件设计师
    32篇
  • Java
    23篇
  • 解决方案
    118篇
TA的推广
兴趣领域 设置
  • 大数据
    hadoophivesparketl
TA的社区
  • 造火箭
    18 成员 35 内容
    创建者
交个朋友
扫描下面二维码,关注公众号:孙中明。回复“2” 获取相关学习书籍。

掘金 Github 微信
公众号:孙中明
hiszm.cn
⭐ 交 个 朋 友 ⭐
hiszm.cn
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 关注/订阅/互动
  • 资源
搜TA的内容
搜索 取消

005.精读《B-Tree vs LSM-Tree》

通过比较B+树和基于级别的LSM树在各种性能方面的表现,我们可以得出结论:基于级别的LSM树在写入性能上优于B+树,而在读取性能上则不如B+树。但是大多数组件选择使用LSM树而不是B树作为其底层存储引擎的主要原因是,利用缓存技术来提升读取性能要比提升写入性能容易得多。如果你想参与讨论,请 点击这里,每周都有新的主题,周末或周一发布。大数据精读,探索知识的深度。关注大数据精读周刊版权声明:自由转载-非商用-非衍生-保持署名(创意共享 3.0 许可证。
原创
发布博客 2024.11.10 ·
702 阅读 ·
20 点赞 ·
0 评论 ·
27 收藏

树形结构数据

树形结构数据是一种基础且强大的数据结构,广泛应用于计算机科学和软件开发的各个领域。它模拟了自然界中树的层级关系,通过节点和它们之间的连接来组织数据。在本文中,我们将深入探讨树形结构数据的概念、特点、类型以及它们在实际应用中的重要性。
原创
发布博客 2024.11.10 ·
584 阅读 ·
7 点赞 ·
0 评论 ·
19 收藏

004.精读《Bigtable: A Distributed Storage System for Structured Data》

综上所述,Bigtable论文在大数据领域产生了深远的影响,其设计理念也影响了开源社区,它不仅促进了NoSQL数据库的兴起,还对许多后来的大数据技术组件产生了直接的启发,包括HBase、MongoDB和Spark等。更重要的是,不仅仅是一篇学术论文,它更像是一本实践指南,指导我们在实际工作中如何更有效地存储和处理数据。最后,由于篇幅限制,一些数据验证的深入讨论并未在此展开。对于有兴趣进一步探索的读者,我建议精读全文以获得更全面的了解。获取原文。
原创
发布博客 2024.11.03 ·
1080 阅读 ·
34 点赞 ·
0 评论 ·
10 收藏

精读预告Bigtable

但是我们又会发现不同省级行政区的人口数量还不一致,中西部人口普遍少一些一张表可能够用,而沿海多一些可能就不够用,所以我们要进行水平拆分,所以我们可以进行水平拆分,将单张表的数据按照一定的规则分布到多个数据库或表中,每个表仅包含数据的一部分。如果我们只增加 2 台服务器,把各个服务器的分片,从模上 4 变成模上 6,我们就需要在增加服务器之后,搬运大量的数据,而数据迁移时,可能会遇到带宽和存储压力、服务中断、读写复杂性增加、资源浪费和成本问题。作为谷歌用于管理结构化数据的分布式存储系统,其独特的设计使得。
原创
发布博客 2024.11.03 ·
306 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

003.精读《MapReduce: Simplified Data Processing on Large Clusters》

综上所述,MapReduce编程模型通过用户定义的map和reduce函数,将复杂的数据处理任务转化为直观的操作,并自动并行化处理,极大提高了计算效率,尤其在大规模集群环境中表现出色。其内置的容错机制确保了数据处理的可靠性,使得MapReduce在文本分析、数据挖掘和网页索引等多个领域得到广泛应用。更重要的是,MapReduce降低了大数据技术的使用门槛,推动了数据处理效率的提升,并促进了大数据生态系统的发展,催生了诸如Hadoop等关键技术框架,为大数据的发展做出了深远的贡献。
原创
发布博客 2024.09.01 ·
1189 阅读 ·
17 点赞 ·
2 评论 ·
30 收藏

Google的MapReduce和Hadoop的MapReduce基本原理

随着 Hadoop 生态系统的发展,为了解决 Hadoop 1.x 版本中的可扩展性和资源管理问题,Hadoop 2.x 版本引入了 YARN(Yet Another Resource Negotiator)作为集群资源管理器。此外,Hadoop 3.x 引入了更多的优化和改进,例如改进的 Shuffle 机制、更好的资源隔离和更高效的数据本地化,以提高 MapReduce 作业的性能和可靠性。按中间键排序,并将每个唯一的中间键及其对应的值集合传递给用户定义的。的职责被拆分,其中作业调度和监控的职责由。
原创
发布博客 2024.09.01 ·
1145 阅读 ·
25 点赞 ·
0 评论 ·
26 收藏

002.精读《The Google File System》| 大数据的三驾马车之一:GFS

介绍了GFS(Google文件系统)的核心设计目标和关键特性。它强调了该系统如何有效处理大量分布式、容错和可扩展的数据存储需求,以支持Google的大规模数据处理应用程序。系统设计包括了容错性、性能优化和可扩展性等方面,适用于在数千台通用硬件设备上运行的大规模应用程序。目标:我们设计并实现了Google文件系统,这是一个可扩展的分布式文件系统,适用于大型分布式数据密集型应用。强调。
原创
发布博客 2024.08.25 ·
827 阅读 ·
29 点赞 ·
0 评论 ·
11 收藏

GFS系统架构

即使在这种情况下,数据也只是丢失而不是被错误地写入,应用程序可以接收到确定的异常信号,而不是错误的数据。任何对这些元数据的修改都会被详细记录在操作日志中,确保了数据变更的持久性和可审计性。,如数据块租约管理、孤立数据块的垃圾回收和数据块在服务器之间的迁移。不仅元数据的唯一持久记录,还充当了一个逻辑时钟,为系统内发生的事件提供了一个统一的时间戳序。,包括命名空间、访问控制信息、文件到数据块的映射以及数据块的当前存储位置。:如果客户端不仅能看到一致的状态,还知道修改后的具体内容,那么这个状态就被称为确定的。
原创
发布博客 2024.08.25 ·
714 阅读 ·
16 点赞 ·
0 评论 ·
11 收藏

001.精读《Big Data: A Survey》

本文全面回顾了大数据的背景、相关技术和应用。作者首先介绍了大数据的总体背景,并讨论了云计算、物联网、数据中心和Hadoop等技术。接着,重点介绍了大数据价值链的四个阶段:数据生成、获取、存储和分析,每个阶段都包括背景介绍、技术挑战讨论和最新进展回顾。最后,作者讨论了大数据在企业管理、物联网、社交网络、医疗、集体智能和智能电网中的应用,旨在为读者提供一个全面的视角。首先,通读本文后,我们至少可以了解到什么是大数据。大数据不仅仅指的是数据量大,而是那些无法在可接受范围内被普通计算机捕获、管理和处理的数据集。
原创
发布博客 2024.07.29 ·
1012 阅读 ·
22 点赞 ·
0 评论 ·
19 收藏

NAS、SAN 与 DAS 的比较与应用场景

NAS是一种连接到网络的存储设备,允许多个客户端通过网络访问存储资源。它通常使用标准网络协议(如NFS、SMB/CIFS)进行数据传输。SAN是一种专用的高速网络,用于连接服务器和存储设备。它提供了块级存储,使得存储资源看起来像是本地连接的。DAS是一种直接连接到单个计算机或服务器的存储设备,通常通过SCSI、SATA或USB接口。特性NASSANDAS连接方式网络(以太网)专用高速网络(光纤通道或iSCSI)直接连接(SCSI、SATA、USB)存储类型文件级存储块级存储块级存储扩展性。
原创
发布博客 2024.07.29 ·
956 阅读 ·
19 点赞 ·
0 评论 ·
20 收藏

MySQL Binlog详解:提升数据库可靠性的核心技术

MySQLBin Log(Binary Log,二进制日志)是MySQL数据库的一种日志文件,用于记录对数据库执行的所有修改DML操作(例如INSERT、UPDATE、DELETE等),但不包括SELECT等DQL只读操作。Bin Log是MySQL实现复制、恢复和审计的重要工具。MySQL 中的 DDL、DML、DQL 和 DCLMySQLBin Log是一个强大的工具,广泛应用于数据恢复、复制和审计等场景。通过正确配置和使用Bin Log,可以大大提高MySQL数据库的可靠性和可用性。
原创
发布博客 2024.07.07 ·
1353 阅读 ·
26 点赞 ·
0 评论 ·
31 收藏

MySQL 中的 DDL、DML、DQL 和 DCL

DDL(Data Definition Language)用于定义和管理数据库结构或模式。这类语句主要包括创建、修改和删除数据库对象(如数据库、表、索引等)。命令描述示例CREATE创建数据库或表ALTER修改数据库对象DROP删除数据库或表TRUNCATE清空表数据CREATE:用于创建数据库和表。-- 创建数据库-- 创建表ALTER:用于修改已有的数据库对象。-- 修改表,添加新列-- 修改表,修改列数据类型DROP:用于删除数据库或表。-- 删除数据库-- 删除表。
原创
发布博客 2024.07.07 ·
833 阅读 ·
13 点赞 ·
0 评论 ·
26 收藏

数据倾斜优化:Hive性能提升的核心

数据倾斜,也称为Data Skew,是在分布式计算环境中,由于数据分布不均匀导致某些任务处理的数据量远大于其他任务,从而形成性能瓶颈的现象。这种情况在Hive中尤为常见,可能发生在MapReduce作业的Map或Reduce阶段。就好比像是在一个拥挤的超市里,所有的顾客都挤在一个收银台前排队结账,而其他的收银台却几乎没有人。这种情况在数据处理中也会发生,我们称之为“数据倾斜想象一下,你有一个巨大的数据集,需要分成很多小块来同时处理(这就像超市开了很多个收银台)。
原创
发布博客 2024.06.30 ·
917 阅读 ·
17 点赞 ·
0 评论 ·
21 收藏

Wails 安装初体验

如果遇到网络问题可以, 这时如果连接不到proxy.golang.org 的话可以切换国内源。通过上述步骤,你可以轻松安装和使用 Wails 来开发跨平台桌面应用。如果遇到问题,请查看。Wails 是一个用于构建桌面应用的 Go 框架,结合了现代前端技术。确保系统上已安装 Go 和 Node.js。构建完成后,应用程序的可执行文件将位于。这将启动开发服务器并打开应用窗口。根据提示选择项目模板并配置项目。同时记得配上PATH。以获取更多详细信息。
原创
发布博客 2024.06.30 ·
1389 阅读 ·
3 点赞 ·
2 评论 ·
11 收藏

元数据:数据的罗塞塔石碑

元数据(Metadata)是描述数据的数据。它详细说明了数据的属性、上下文、来源、结构和使用方法。简单来说,元数据就像是数据世界里的导游,它告诉我们数据的来龙去脉。元数据不仅捕捉了数据从诞生到被使用的每一个步骤,还详细记录了数据的结构和数据流转的路径。在数据仓库的日常操作中,元数据就像是一个智能的助手,它让数据管理员和开发者能够轻松定位到他们需要的数据。这不仅让数据管理和开发工作变得更加得心应手,还显著提升了工作效率。元数据的作用描述理解数据的起源和含义。
原创
发布博客 2024.06.17 ·
978 阅读 ·
18 点赞 ·
0 评论 ·
28 收藏

SQL160 国庆期间每类视频点赞量和转发量

用户-视频互动表tb_user_video_log(uid-用户ID, video_id-视频ID, start_time-开始观看时间, end_time-结束观看时间, if_follow-是否关注, if_like-是否点赞, if_retweet-是否转发, comment_id-评论ID)短视频信息表tb_video_info(video_id-视频ID, author-创作者ID, tag-类别标签, duration-视频时长, release_time-发布时间)问题:统计2021年国庆头3
原创
发布博客 2024.06.17 ·
684 阅读 ·
29 点赞 ·
0 评论 ·
12 收藏

数据仓库核心:事实表深度解析与设计指南

事实表是数据仓库中的核心,它与维度表相对应,存储了业务过程中量化的数据,也就是我们通常所说的度量值(measures度量值:这些是事实表中的主要数据,可以进行数值计算,如销售额、订单数量、产品单价等。维度键:这些是指向维度表的外键,通过它们,事实表与维度表相连,从而为度量值提供上下文信息。上下文信息:提供额外的业务信息,如时间戳、事务ID等。粒度”描述了事实表中每条记录所捕捉到的业务细节的深度。它可以通过两个维度来衡量:首先是维度属性的组合,它们决定了数据条目的详细程度;
原创
发布博客 2024.06.10 ·
1772 阅读 ·
25 点赞 ·
1 评论 ·
12 收藏

SQL159 每个创作者每月的涨粉率及截止当前的总粉丝量

示例数据中表tb_user_video_log里只有视频2001和2002的播放记录,都来自创作者901,播放时间在2021年9月和10月;其中10月里加粉量为2,掉份量为1,播放量为4,因此涨粉率为0.250,截止当前总粉丝数为2。
原创
发布博客 2024.06.10 ·
1016 阅读 ·
19 点赞 ·
1 评论 ·
24 收藏

数据仓库核心:维度表设计的艺术与实践

说回维度表,它承载着丰富的描述性信息,是连接事实表的桥梁。主键:它是维度表的“身份证”,一个独特的标签,确保了每一行数据的唯一性。描述性属性:这些属性是维度表的灵魂,它们描绘了维度的细节,比如时间的流逝、地点的特色、产品的特性等。其就像一个精心编排的目录,它通过主键来确保每个条目都是独一无二的。这个主键就像是一把钥匙,不仅打开了数据的大门,还确保了与它相连的任何事实表之间的联系是牢固和完整的。代理键和自然键,它们都是用来标识维度表中的特定条目的。想象一下,代理键。
原创
发布博客 2024.06.02 ·
1197 阅读 ·
19 点赞 ·
0 评论 ·
28 收藏

SQL158 每类视频近一个月的转发量/率

统计在有用户互动的最近一个月(按包含当天在内的近30天算,比如10月31日的近30天为10.2~10.31之间的数据)中,每类视频的转发量和转发率(保留3位小数)。
原创
发布博客 2024.06.02 ·
799 阅读 ·
8 点赞 ·
0 评论 ·
15 收藏
加载更多