自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SmartSi

一起陪伴大数据成长

  • 博客(2216)
  • 资源 (69)
  • 问答 (17)
  • 收藏
  • 关注

原创 Hive 系统性学习笔记

Hive系统学习笔记

2022-11-20 15:59:49 1119 2

原创 Flink 源码解读

Flink 源码解读系列

2022-09-18 22:29:14 372

原创 那些年我们踩过的 Flink 坑系列

那些年我们踩过的 Flink 坑系列

2022-07-31 17:40:19 337

原创 Spark 学习笔记

Spark 系统性学习笔记系列

2022-07-31 17:36:50 849

原创 Flink 系统性学习笔记

Flink 学习笔记

2022-07-31 17:30:55 1186

原创 Hadoop 系统性学习笔记系列

Hadoop 系统性学习笔记系列

2022-07-24 08:38:48 425

转载 苏宁超6亿会员如何做到秒级用户画像查询?

双 11”到了,假设需要发放 1000 万张家电类优惠券,那我们首先需要根据标签筛选出符合条件的人群,人数大约为 1000 万左右,然后对选择的人群进行画像分析,看是否符合预期的特征。如果人群符合特征,系统将一键生成进行营销的人群包(userid 列表),自动化发布和营销。图 1:业务流程架构图如下:图 4:标签架构ClickHouse Manager 是我们自研的 ClickHouse 管理平台,负责集群管理、元数据管理和节点负载协调。

2023-09-26 08:46:25 32

翻译 Spark 入门 Shuffle 操作

Spark 中的某些操作会触发一个称为shuffle的事件。shuffle是 Spark 重新分配数据的一种机制,以便对不同分区上的数据进行分组。这通常跨 Executors 和机器进行数据复制,使得shuffle成为一项复杂而代价比较大的操作。

2023-09-25 08:01:40 19

原创 2023年09数据月报

2023年09月优秀行业实践案例

2023-09-24 08:24:11 15

转载 Apache Linkis 在理想汽车的应用实践

未来,我们会继续基于Links进行内部大数据平台的优化, 主要如下, 后续也希望把相关进展分享、回馈给社区。

2023-09-20 08:42:20 31

转载 Spark 内部原理 运行模式

Spark 的运行模式又是什么样的呢?通过本文以下的讲解大家可以详细的学习了解。

2023-09-16 15:34:47 29

翻译 Spark 入门 共享变量

通常情况下,传递给 Spark 操作(例如 map 或 reduce)的函数是在远程集群节点上执行的。函数中使用的变量,在多个节点上执行时是同一变量的多个副本。这些变量被拷贝到每台机器上,并且在远程机器上对变量的更新不会回传给 Driver。跨任务支持通用的,可读写的共享变量效率是非常低的。所以,Spark 提供了两种类型的共享变量:广播变量(broadcast variables)和累加器(accumulators)。

2023-09-13 07:58:21 30

转载 Spark Streaming在小米数据流应用中的Checkpoint相关问题

我们都希望 Spark Streaming 作业能够长时间运行下去,但是总会有一些意想不到的异常会导致作业退出(比如依赖的服务出现了异常),或者我们需要对作业进行升级重启,这个时候就需要用到 Checkpoint 了。使用 Spark Streaming 的同学应该对 Checkpoint 的用法有了一定的了解,我们这里只简单介绍下 Checkpoint 的原理。Spark Streaming 有两类 Checkpoint,一类是 Metadata Checkpoint,来加强作业的容错性;

2023-09-12 21:36:21 33

转载 B站埋点分析平台的构建之路

B站内各业务产品迭代离不开各种数据决策,而依托于埋点的用户行为数据在其中起到了 关键作用。埋点也是算法推荐、渠道投放、业务决策的重要数据来源,鉴于此,如何规范埋点设计,高效采集,让业务团队快速直观分析成为了推进业务发展的重要一环。本文主要分享B站过去在埋点规范设计、埋点分析应用的经验,我们相信数据只有流动起来,才能发挥它的价值,The data must flow!

2023-09-12 08:21:59 40

转载 携程如何基于 Spark Streaming 构建实时计算平台

随着互联网技术的迅速发展,用户对于数据处理的时效性、准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战。自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%。

2023-09-10 17:36:14 32

原创 Spark Streaming 如何使用 MapWithState 实现有状态应用

有时候可能需要依赖流中前几个批次中的元素来计算当前批次的结果。例如,计算流中所有元素的和,计算当前元素值与之前元素的差值。这种运算会在遍历整个流的期间不断更新计算状态。在 Spark Streaming 中提供了和 MapWithState 函数来实现。本文主要介绍如何使用 MapWithState 函数实现有状态应用。

2023-09-10 09:05:55 33

原创 Spark Streaming 如何使用 UpdateStateByKey 实现有状态应用

有时候可能需要依赖流中前几个批次中的元素来计算当前批次的结果。例如,计算流中所有元素的和,计算当前元素值与之前元素的差值。这种运算会在遍历整个流的期间不断更新计算状态。在 Spark Streaming 中提供了 updateStateByKey 和 MapWithState 函数来实现。本文主要介绍如何使用 updateStateByKey 函数实现有状态应用。

2023-09-09 15:44:59 31

翻译 Spark Streaming 2.2.0 与 Kafka 0.8 整合

在这篇文章我们主要讲解一下如何配置 Spark Streaming 来接收 Kafka 的数据,一共有两种方法:一种是使用 Receivers 和 Kafka 高级API的旧方法。另一种是不使用 Receivers 的新方法(在 Spark 1.3 中引入)

2023-09-05 08:10:58 35

转载 一文彻底理解 Apache Hudi 的清理服务

Apache Hudi 提供了 MVCC 并发模型,保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本,此外还将讨论用户可使用的清理机制,以了解如何维护所需数量的旧文件版本,以使长时间运行的读取端不会失败。

2023-08-28 08:47:38 57

原创 数据湖学习笔记

基于 Lakehouse 架构实现湖内建仓实践经验 Lakehouse架构指南 腾讯 数据湖知识体系解析 一个理想的数据湖应具备哪些功能? HDFS廉颇老矣?基于对象存储的数据湖构建新思路 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体 网易严选数据湖建设实践 爱奇艺数据湖实战 字节跳动基于数据湖技术的近实时场景实践 数据湖在快手的生产实践 Apache Hudi 典型应用场景知多少? Apache Hudi 在腾讯的落地与应用 基于 Apache Hudi 构建数据

2023-08-28 08:02:12 49

转载 基于 Lakehouse 架构实现湖内建仓实践经验

第一个阶段是数据库不管是从业务的角度还是从技术栈角度,大家对数据库都是最熟的。第二阶段是数据仓库当数据库的整体能力达不到我们的存储要求之后,就出现了数据仓库。数据仓库定位也是偏OLAP。它把数据的存储的能力通过分布式的方式去加大,计算能力也相应增加了上去。在有些特性和用法上是非常相似的。第三阶段是数据湖数据湖在存储规模和计算能力上进一步加大,整个集群规模可以上万台,整体的能力会有更大的提升,同时扩容更加平滑。另外它增加了很多数据库和数仓不具备的能力,比如实时计算、机器学习。

2023-08-27 12:59:43 44

原创 2023年08数据月报

基于 Flink & Paimon 实现 Streaming Warehouse 数据一致性管理 性能全面飙升!StarRocks 在贝壳找房的极速统一实践 Flowable工作流引擎的科普与实践 万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践 Impala在数据湖中的性能优化 干货 | 详述 Elasticsearch 向量检索发展史 快速上手使用 Paimon MySQL CDC 芒果 TV 基于 Flink 的实时数仓建设实践 数据序列化工

2023-08-27 07:59:23 103

转载 一文彻底弄懂Apache Hudi不同表类型

在深入研究 COW 和 MOR 之前,让我们先了解一下 Hudi 中使用的一些术语,以便更好地理解以下部分。

2023-08-25 08:17:28 40

转载 基于 Apache Hudi 构建数据湖的典型应用场景介绍

传统大数据由于不支持事务等痛点问题,造成T+1时延,虽然能够基于Flink流式计算实现少量数据在简单场景的秒级数据处理能力,但依然缺乏海量复杂场景的实时更新、事务支持能力。现在基于华为云FusionInsight MRS的Hudi可以构建分钟级数据处理方案,实现较大数据量的复杂计算实时处理能力,大大提升数据时效性,让数据价值近在眼前。

2023-08-25 07:25:30 55

转载 Apache Hudi 在腾讯的落地与应用

如上图所示,以最简单的覆盖逻辑为例,当读到 BaseFile 中的主键是 key1 的 Record 时,发现 key1 在 Map 中已经存在并且对应的 Record 有 BCD 三列的值,则更新 BaseFile 中的 BCD 列,得到新的 Record(key1,b0_new,c0_new,d0_new,e0),注意 E 列没有被更新,所以保持原来的值 e0。同时,这套方案的扩展性也更加好。在传统的Hive数仓中想保证实时是非常困难的,尤其是文件更新,湖表实时写入更新,基本不可能实现。

2023-08-23 08:32:22 155

转载 Apache Hudi 典型应用场景知多少?

此外,Hudi 没有外部依赖项(例如专用于实时分析的专用HBase群集),因此可以在不增加运营成本的情况下,对更实时的数据进行更快的分析。在这种情况下,保证正确性的唯一方法是每小时重复处理最后几个小时的数据,这会严重损害整个生态系统的效率。Hudi可以很好的解决上述问题,其通过记录粒度(而非文件夹或分区)来消费上游Hudi表 HU中的新数据,下游的Hudi表 HD应用处理逻辑并更新/协调延迟数据,这里 HU和 HD可以以更频繁的时间(例如15分钟)连续进行调度,并在 HD上提供30分钟的端到端延迟。

2023-08-23 07:36:06 34

原创 Hadoop 2.10.1 安装与启动

可以直接从官网上下载 https://archive.apache.org/dist/hadoop/common/ 你需要的版本,在这我们使用的是 2.10.1 版本 hadoop-2.10.1.tar.gz。Hadoop 早期版本采用一个配置文件hadoop-site.xml来配置Common,HDFS和MapReduce组件。从0.20.0版本开始该文件以分为三,各对应一个组件。如果在 mapred-site.xml 中设置数据处理框架为 yarn,同时也需要配置 yarn-site.xml 文件。

2023-08-22 08:18:58 56

原创 Hadoop Initialization failed for Block pool <registering>

两者的 clusterID 不一致导致最终 datanode 没有启动。这个问题一般是由于两次或两次以上的格式化 NameNode 造成的。目录,查看 VERSION 文件,可以发现 datanode 的 clusterID 为。从上面异常中可以发现 namenode 的 clusterID 为。从上面可以看到我们的 dataNode 已经跑起来了。,而 datanode 的 clusterID 为。重启 Hadoop 即可。

2023-08-22 08:16:18 28

转载 Hudi 基本概念

Apache Hudi(发音为“Hudi”)在DFS的数据集上提供以下流原语在本节中,我们将讨论重要的概念和术语,这些概念和术语有助于理解并有效使用这些原语。

2023-08-20 16:59:52 36

转载 Apache Hudi:新一代流式数据湖平台

早在 2016 年,我们就提出了一个大胆的新愿景 [1],通过一个新的“增量”数据处理技术栈(结合现有的批处理和流式处理堆栈)重新构想批处理。虽然流处理管道进行面向行的处理,提供秒级处理延迟,但增量管道将对数据湖中的列数据应用相同的原则,高效的数据处理,及相对批处理数量级的改进,同时存储 / 计算可高度扩展。这个新的技术栈将能够毫不费力地支持批量再加工 / 回填的常规处理。Apache Hudi 是作为这一愿景的体现而建立的,它植根于 Uber 面临的真实、困难的问题 [2],后来在开源社区中独树一帜。总之

2023-08-20 08:29:16 48

转载 Lakehouse架构指南

数据湖是一种存储系统,具有底层数据湖文件格式[6]及其不同的数据湖表格式[7],可存储大量非结构化和半结构化数据,并按原样存储,但没有特定用途。广泛的技术和非技术数据消费者可以访问该数据以进行分析用例和机器学习模型,包括商业智能和报告。数据湖还消除了通过传统 BI 工具转换数据需要使用专有格式的需要。将数据加载到数据湖中,数据团队花费时间构建和维护复杂 ETL 管道的旧瓶颈消失了,并且跳过了等待数周的数据访问请求。

2023-08-18 08:40:30 28

转载 腾讯 数据湖知识体系解析

数据湖是一种存储系统,底层包括不同的文件格式及湖表格式,可存储大量非结构化和半结构化的原始数据。数据消费者可以访问该数据进行数据分析,包括 BI、报表和机器学习模型训练。有了数据湖,数据变得越来越可用。

2023-08-18 07:54:18 59

转载 一个理想的数据湖应具备哪些功能?

从数据库到数据仓库,最后到数据湖[1],随着数据量和数据源的增加,数据格局正在迅速变化。数据湖市场预计增长近 30%[2],将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看,数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0,该趋势可能会增长,该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能,使数据湖成为该行业的支柱。

2023-08-17 07:46:53 36

转载 字节跳动基于数据湖技术的近实时场景实践

本讲嘉宾是来自抖音电商实时数仓团队的大数据工程师马汶园,分享主题为基于数据湖技术的近实时场景实践。

2023-08-16 21:47:31 38

转载 网易 实时数据仓库的发展、架构和趋势

数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。

2023-08-16 15:43:36 25

转载 HDFS廉颇老矣?基于对象存储的数据湖构建新思路

我们经常会被问到一个企业大数据架构的问题:随着企业收集 / 产生的数据越来越多,如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。

2023-08-15 07:27:01 46

转载 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

我们身处一个大数据时代,企业的数据量爆炸式增长。如何应对海量数据存储和处理的挑战,建设好数据平台,对一个企业来说是很关键的问题。从数据仓库、数据湖,到现在的湖仓一体,业界建设数据平台的新方法和新技术层出不穷。理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理,可以帮助企业更好地建设数据平台。这也是百度智能云推出数据湖系列内容的初衷。本系列文章将包含几个部分:本篇将作为数据湖整个系列的开篇,为大家介绍数据平台技术的历史和发展过程中遇到的一些关键技术问题。

2023-08-11 08:19:15 262

原创 Spring 数据库操作 JdbcTemplate

大家先回顾一下我们是如何操作数据库的

2023-08-11 07:08:09 41

转载 Apache Iceberg:Netflix 数据仓库的基石

Iceberg 主要设计思想:记录表在所有时间的所有文件,和 Delta Lake 或 Apache Hudi 一样,支持 snapshot,其是表在某个时刻的完整文件列表。带来的问题是如果一张表有很多分区,我们需要使用 HMS(Hive MetaStore)来记录这些分区,同时底层的文件系统(比如 HDFS)仍然需要在每个分区里面记录这些分区数据。在 Netflix,他们希望有更智能的处理引擎,比如有 CBO 优化,更好的 Join 实现,缓存结果集以及物化视图等功能。原生支持云对象存储,支持多并发写。

2023-08-01 08:48:19 32

原创 2023年07数据月报

天穹SuperSQL如何应对数据湖场景中的复杂多维分析 哔哩哔哩数据服务中台建设实践 抖音集团面向多样应用场景的数据准备实践 实用型因果推断方法在小红书的实践 基于Lakehouse架构实现湖内建仓实践经验 StreamPark 在顺网科技的大规模生产实践 如何使用calcite构建SQL并执行查询 Flink CDC & MongoDB 联合实时数仓的探索实践 Apache Doris数据湖联邦分析特性揭秘 实战总结|记一次消息队列堆积的问题排查 使用 Apache Se

2023-08-01 07:16:05 89

Java 1.7 中文帮助文档

Java 1.7 中文帮助文档.

2015-12-27

大型网站技术核心原理与案例分析

本书通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读者呈现一幅包括技术选型、架构设计、性能优化、Web 安全、系统发布、运维监控等在内的大型网站开发全景视图。 本书不仅适用于指导网站工程师、架构师进行网站技术架构设计,也可用于指导产品经理、项目经理、测试运维人员等了解网站技术架构的基础概念;还可供包括企业系统开发人员在内的各类软件开发从业人员借鉴,了解大型网站的解决方案和开发理念。

2015-12-25

2015 搜狗校园招聘研发类笔试题

2015 搜狗校园招聘研发类笔试题

2015-12-22

Android应用开发揭秘

国内第一本基于Android 2.0的经典著作,5大专业社区联袂推荐,权威性毋庸置疑! 本书内容全面,不仅详细讲解了Android框架、Android组件、用户界面开发、游戏开发、数据存储、多媒体开发和网络开发等基础知识,而且还深入阐述了传感器、语音识别、桌面组件开发、Android游戏引擎设计、Android应用优化、OpenGL等高级知识,最重要的是还全面介绍了如何利用原生的C/C++(NDK)和Python、Lua等脚本语言(Android Scripting Environment)来开发Android应用;本书实战性强,书中的每个知识点都有配精心设计的示例,尤为值得一提的是,它还以迭代的方式重现了各种常用的Android应用和经典Android游戏的开发全过程,既可以以它们为范例进行实战演练,又可以将它们直接应用到实际开发中去。

2015-12-17

Android开发秘籍

作为google 开发的全新开源手机平台,android 发展如火如荼。本书通过大量代码秘诀全面详尽地讲述了android 开发技术。从activity 和intent 基础知识开始,到线程、服务、broadcast receiver 以及alert 警告框,再到用户界面布局、界面事件、多媒体技术、硬件接口、网络通信、数据存储方法、基于位置的服务、android 高级开发技术和调试,书中贯穿了经android 设备或者模拟器测试的可用范例,将功能丰富、结构复杂的android 应用程序清晰完美地展现给开发人员。 对于那些有志于android 应用开发的人员来说,本书是难得的参考读物。

2015-12-17

Android开发精要

如何才能写出贴近Android设计理念、能够更加高效和可靠运行的Android应用?通过Android的源代码去了解其底层实现细节是最重要的方法之一!然而,Android系统太过于庞大,源代码实现复杂,学习的技术门槛和时间成本都很高。 有没有一种方法既能帮助开发者深入理解Android应用开发,又能不被底层大量的实现细节所羁绊,迅速掌握编写高质量Android应用所需的知识?本书针对这个问题给出了完美的答案!它从Android繁杂的源代码中抽取出了Android开发的“精华”和“要点”,剥离了大量琐碎的底层实现细节,进行了高度概括和总结,不仅能帮助开发者迅速地从宏观上理解整个Android系统的设计理念,而且能帮助开发者迅速地从微观上掌握核心知识点的原理,从而编写出高质量的Android应用。[1] 本书共13章,在逻辑上分为4个部分。第一部分(1~2章):第1章系统介绍了Android的系统架构、核心模块和设计思想,旨在让读者真正理解它的设计理念;第2章讲解了Android源代码的获取、编译、阅读和编辑的方法。第二部分(3~6章):第3章深入阐述了Android组件机制的设计理念和重要特征,并详细介绍了4大组件的方法和原理;第4章讲解了Intent对象和Android的意图机制,阐明了Android是如何将来自不同应用、不同进程的组件整合在一起的;第5章解析了Android中各个组件的生命周期,包括组件的进程模型和线程模型;第6章从开发的角度详细阐述了组件间数据传输的解决方案,以及它们的优缺点和适用场景。第三部分(7~8章):第7章深入讲解了Android的控件框架,结合实际项目对重要控件的实现和使用逐一进行了分析,还包含Android 4.0界面开发的实践“精华”;第8章分析了Android的资源体系,剖析了Android底层对资源的处理。第四部分(9~13章):第9章讲解了Android的数据存储结构,以及不同数据存储模式的使用要点;第10章分析了Android的各种网络连接方式,涵盖NFC和基于WiFi的P2P连接等内容;第11章讲解了Android的定位服务、地址服务和地图服务的框架实现;第12章仔细分析了Android各种多媒体功能的实现机制;第13章对Android中比较有特色的一些模块的实现细节进行了分析。

2015-12-17

Android技术内幕.系统卷

《Android技术内幕:系统卷》是国内首本系统对Android的源代码进行深入分析的著作。全书将Android系统从构架上依次分为应用层、应用框架层、系统运行库层、硬件抽象层和Linux内核层等5个层次,旨在通过对Android系统源代码的全面分析来帮助开发者加深对Android系统架构设计和实现原理的认识,从而帮助他们解决开发中遇到的更加复杂的问题。《Android技术内幕:系统卷》分为两卷,系统卷主要分析了Linux内核层、硬件抽象层和系统运行库层的各个模块的底层原理和实现细节;应用卷主要分析了应用层和应用框架层的各个模块的底层原理和实现细节。 具体而言,系统卷第1章首先从宏观上介绍了Android系统的架构以及各个层次之间的关系,然后介绍了如何获取Android源代码并搭建Android源代码开发环境和阅读环境的方法;第2章有针对性地剖析了Android的内核机制和结构,以及Android对Linux内核的改动和增强;第3章分析了Binder的架构和工作机制,以及Binder驱动的实现原理;第4章分析了Android电源管理模块的机制与实现;第5章全面地剖析了Android硬件设备驱动(显示、视频、音频、MTD、Event、蓝牙、WLAN等)的工作原理和实现,掌握这部分内容即可修改和编写基于Android的设备驱动程序;第6章深刻阐述了Android原生库的原理及实现,涉及系统C库、功能库、扩展库和原生的Server等重要内容;第7章系统地讲解了硬件抽象层的原理与实现,掌握这部分内容即可编写适合特定硬件设备驱动的抽象层接口;第8章和第9章是对系统运行库层的分析,主要讲解了Dalvik虚拟机的架构、原理与实现,以及Android的核心库相关的知识,掌握这部分内容即可完成对Android运行库的移植和修改。

2015-12-17

Android高级编程

《Android高级编程》首先简要介绍Android软件栈,接着陈述为手机创建稳定可靠、赏心悦目的应用程序的基本原理。通过学习,您可以打下牢固的理论根基,了解使用当前Android 1.0 SDK编写定制移动程序所需的知识,还能灵活快捷地运用未来的增强功能构建最前沿的解决方案。 Android提供一个开放的开发环境,为针对移动设备编写创新应用程序带来了激动人心的新机遇。作为使用AndroidSDK构建这些应用程序的实用指南书籍,《Android高级编程》从始至终穿插了一系列示例项目,每个项目都引入Android的新功能和新技术,以助您达到最圆满的学习效果。书中介绍Android的所有基本功能,并通过简明扼要的示例引导您使用高级功能。

2015-12-17

2015 腾讯校园招聘技术类研发笔试题

2015 腾讯校园招聘技术类研发笔试题

2015-12-17

2015 小米校园招聘笔试题

2015 小米校园招聘笔试题

2015-12-17

2015 新浪微博校园招聘笔试题

2015 新浪微博校园招聘笔试题

2015-12-17

2015 中体彩测试工程师笔试题

2015 中体彩测试工程师笔试题

2015-12-17

2016 恒生电子校园招聘笔试题

2016 恒生电子校园招聘笔试题

2015-12-17

JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发

《轻量级Java EE企业应用实战:Struts 2+Spring 3+Hibernate整合开发》是2008年电子工业出版社出版的图书,作者是李刚。《轻量级JavaEE企业应用实战》一书于2008年由电子工业出版社出版发行,该书是《轻量级J2EE企业应用实战》的第二版,同时还融合了《整合Struts+Hibernate+Spring应用开发详解》理论部分。实际上,该书凝结了前两本书的精华部分。该书介绍了Java EE领域的三个开源框架:Struts 2、Spring和Hibernate。其中Struts 2升级到2.1.2,Spring升级到2.5.5,Hibernate升级到3.2.6。该书保留《轻量级J2EE企业应用实战》里关于Tomcat、 Jetty的介绍,新增了关于Ant、CVS的内容。

2015-12-17

Mahout算法解析与案例实战

本书是一本经典的Mahout著作,原理与实战并重。不仅全面分析了Mahout算法库中不同模块中的各个算法的原理及其Mahout实现流程,而且每个算法都辅之以实战案例。此外,还包括4个系统级案例,实战性非常强。全书共11章分为三个部分:第一部分为基础篇(第1~2章),首先介绍了Mahout的应用背景、Mahout算法库收录的算法、Mahout的应用实例,以及开发环境的搭建;第二部分为算法篇(第3~7章),分析了Mahout算法库中不同模块的各个算法的原理以及Mahout实现流程,同时在每章书末含有每个算法的实战,让读者可以自己运行程序,感受程序运行的各个流程;第三部分为实战篇(第8~11章),通过对4个不同系统案例的分析讲解,让读者了解一个完整的云平台系统的各个流程,从需求到系统框架到系统功能再到功能开发。

2015-12-16

LINUX内核设计与实现

《Linux内核设计与实现(原书第3版)》主要内容包括:进程管理、进程调度、时间管理和定时器、系统调用接口、内存寻址、内存管理和页缓存、VFS、内核同步以及调试技术等。同时《Linux内核设计与实现(原书第3版)》也涵盖了Linux 2.6内核中颇具特色的内容,包括CFS调度程序、抢占式内核、块I/O层以及I/O调度程序等。《Linux内核设计与实现(原书第3版)》采用理论与实践相结合的路线,能够带领读者快速走进Linux内核世界,真正开发内核代码。《Linux内核设计与实现(原书第3版)》适合作为高等院校操作系统课程的教材或参考书,也可供相关技术人员参考。

2015-12-14

重构-改善即有代码的设计

本书清晰揭示了重构的过程,解释了重构的原理和最佳实践方式,并给出了何时以及何地应该开始挖掘代码以求改善。书中给出了70多个可行的重构,每个重构都介绍了一种经过验证的代码变换手法的动机和技术。本书提出的重构准则将帮助你一次一小步地修改你的代码,从而减少了开发过程中的风险。

2015-12-14

算法艺术和信息学竞赛

本书即为信息学界著名的两本“黑书”之一(另一本为吴文虎、王建德编著的实用算法的分析与程序设计,这本书现在已经在市场是接近绝版,但是在网上能找到电子书·如果想找到替代品的话可以找另外一本由吴文虎教授以及王建德先生编著的黑书《新编实用算法的分析与程序设计》,由北京邮电出版社2008年出版,此书与原版表面内容相差较大,但实质没有太大差别)。

2015-12-14

Eclipse Maven插件

eclipse-maven插件。官网并不提供 maven 插件的离线安装包,在网上搜一下maven 的离线安装即可。

2015-11-30

apache-mahout-distribution-0.11.1-src

Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。

2015-11-30

Better bitmap performance with Roaring bitmaps

Better bitmap performance with Roaring bitmaps

2023-03-06

Encoded Bitmap Indexing for Data Warehouses

Encoded Bitmap Indexing for Data Warehouses

2023-03-04

数仓规范化-菜鸟数据模型管理实践

数仓规范化—菜鸟数据模型管理实践 PDF

2023-02-19

美团外卖离线数仓建设实践

美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对痛点做的一系列优化解决方案

2023-02-19

Redis 入门指南

《Redis入门指南》是2013年人民邮电出版社出版的图书,作者是李子骅。该书是一本Redis的入门指导书籍,以通俗易懂的方式介绍了Redis基础与实践方面的知识,包括历史与特性、在开发和生产环境中部署运行Redis、数据类型与命令、使用Redis实现队列、事务、复制、管道、持久化、优化Redis存储空间等内容,并采用任务驱动的方式介绍了PHP、Ruby、Python和Node.js这4种语言的Redis客户端库的使用方法。

2017-06-02

Apache Sqoop Cookbook

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

2016-11-14

Apache Spark源码剖析

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

2016-11-12

Elasticsearch.The.Definitive.Guide

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的

2016-10-21

Shell脚本学习指南

《Shell脚本学习指南》将告诉你这些有关UNIX主流工具的知识。除此之外,《Shell脚本学习指南》还会帮助你解决UNIX命令与标准的差异。 作者熟知UNIx程序使用的基本技巧与操作上细微的差异。他们不但会告诉你如何构建一个绝佳的脚本,还会教你如何避免落入让你功亏一篑的陷阱。有了《Shell脚本学习指南》,你可以节省很多力气。 我们要学习的不只是如何写出有用的Shell脚本,你还得了解如何迅速、确实地定制Shell,让程序的可移植性达到最佳状态,脱离对特定系统的依赖。这些技巧对任何操作与维护UNIX及Linux系统的人而言都很重要。《Shell脚本学习指南》所提供的知识,将可以帮助你掌握基本的Shell脚本编写技巧。Shell脚本编程(scripting)的技巧永远不会过时:它们可以让UNIX充分发挥其真实的潜能。对uNIx的用户与系统管理者而言

2016-05-28

dubbo-admin-2.5.4

dubbo-admin

2016-04-26

AspectJ所需Jar包

AspectJ 1.8.8 版本 更新时间 2016/02/12

2016-02-12

精通Spring

本书深入剖析了当前流行的轻量级开发框架Spring技术。本书总共分成3部分。第一部分,重点阐述Spring的架构。这部分内容循序渐进带领开发者进入Spring中。主要在于阐述Spring IoC和Spring AOP。第二部分,重点阐述Spring的使用。这部分内容从简化Java/J2EE的角度出发,从J2EE平台各个技术层面分析、并给出大量的研究实例,对Spring提供的API进行阐述。主要在于阐述Spring对J2EE API提供的服务抽象。第三部分,重点阐述Spring高级专题。这部分内容重点对视图技术进行了研究,因为对于开发Web应用而言,前端界面的开发往往工作量很大。因此,使用合理的视图技术开发Web应用对于项目的成功与否很关键。

2016-02-07

Java Persistence with MyBatis 3

MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis 。2013年11月迁移到Github。

2016-02-06

Java Persistence with MyBatis 3(中文版)

Java Persistence with MyBatis 3(中文版)

2016-02-06

Spring-Jar-4.2.4

Spring应用开发使用的全部jar包: Spring-core.jar Spring-context.jar Spring-expression.jar Spring-beans.jar commons-logging.jar

2016-01-28

mysql-connector-java-5.1.38

mysql驱动jar包 峰

2016-01-21

log4j所需jar包

Log4j是Apache的一个开源项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台、文件、GUI组件,甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等;我们也可以控制每一条日志的输出格式;通过定义每一条日志信息的级别,我们能够更加细致地控制日志的生成过程。最令人感兴趣的就是,这些可以通过一个配置文件来灵活地进行配置,而不需要修改应用的代码。

2016-01-20

jdom-2.0.6.zip

JDOM是一种使用 XML(标准通用标记语言下的一个子集) 的独特 Java 工具包,。它的设计包含 Java 语言的语法乃至语义。

2016-01-03

Hadoop实战中文版

为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。  《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

2015-12-25

大规模分布式系统架构与设计实战

《大规模分布式系统架构与设计实战》是作者从程序员到首席架构师十多年职业生涯的实战经验总结,系统讲解构建人规模分布式系统的核心技术与实现方法,包含作者开源的Fourinone系统的设计与实现过程,手把手教你掌握分布式技术。通过学习这个系统的实现方法与相关的理论,读者可快速掌握分布式系统的理论并设计自己的分布式系统。 《大规模分布式系统架构与设计实战》从分布式计算的基本概念开始,解剖了众多流行概念的本质,深入讲解分布式系统的基本原理与实现方式。包括master—slave结构、消息中枢模式、网状直接交互模式、并行结合串行模式等,以及Fourinone系统的架构、实现分布式功能的示例。接下来详细介绍分布式协调、分布式缓存、消息队列、分布式文件系统、分布式作业调度平台的设计与实现方法,不仅包括详细的架构原理、算法,还给出了实现步骤、核心API、实现代码。随书附带的光盘包括书中示例代码以及Fourinone系统源代码。

2015-12-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除