@SmartSi-CSDN博客

原创 Flink 高分笔记

这篇博客文章总结了Flink流计算相关的基础知识和实践指南。主要内容包括：1) 流计算基础概念，如事件时间、Watermark机制、Exactly-once语义；2) Flink基础操作，如安装部署、程序结构、并发设置、故障恢复；3) DataStream API核心功能，包括时间概念、窗口计算、状态管理、双流Join等；4) Table API与SQL的使用方法和工作原理。文章提供了丰富的技术文档链接，涵盖了Flink从入门到进阶的各个方面，既有理论讲解也有实践案例，是一个系统的Flink学习资源合集。

2025-06-22 22:50:13 1335

原创大数据实践案例月报指南

为您准备了阿里、字节、百度等大厂实践案例

2024-07-06 09:53:57 752

原创 Hive 高分笔记

Hive 高分笔记

2022-11-20 15:59:49 1503 2

原创 Flink 源码解读

Flink 源码解读系列

2022-09-18 22:29:14 613

原创 Spark 高分笔记

Spark 系统性学习笔记系列

2022-07-31 17:36:50 1611 1

原创 Hadoop 高分笔记

Hadoop 精选内容汇总

2022-07-24 08:38:48 1539

原创 MinIO 实战：通过 Java API 实现 MinIO 基本操作

本文介绍了MinIO对象存储系统的基本概念及其Java SDK的使用方法。主要内容包括环境准备（MinIO服务部署和Maven依赖配置）以及Bucket和Object的核心操作指南。详细讲解了Bucket的创建、存在性检查、列表查看和删除方法，以及Object的上传、下载、元数据获取、列表查看、删除和复制等操作。通过代码示例展示了如何使用MinioClient进行初始化以及各项功能的实现，为开发者提供了与MinIO服务器交互的实用参考。所有示例代码均可在GitHub上获取。

2025-12-06 11:37:37 855

原创 SpringBoot 实战：Spring Boot 集成 FreeMarker

摘要：本文详细介绍了如何在Spring Boot项目中高效集成FreeMarker模板引擎。文章首先分析了FreeMarker的核心优势，包括简洁语法、强大功能和性能优势。然后通过具体示例展示了项目搭建过程，重点讲解了FreeMarker在Spring Boot中的详细配置参数及其作用，如缓存设置、编码配置、模板路径等。最后提供了完整的YAML配置示例，帮助开发者根据开发和生产环境需求进行灵活配置，实现业务逻辑与视图展示的清晰分离。

2025-11-29 12:03:29 1035

原创 Firecrawl 实战：使用 Docker compose 本地化部署 Firecrawl

Firecrawl是一个高效的网络爬虫工具，本文介绍了使用Docker Compose进行本地化部署的完整流程。首先需要安装Git、Docker Engine和Docker Compose等前置工具，然后克隆项目仓库并配置环境变量。在构建容器时可能会遇到Go模块下载失败的问题，解决方案是修改Dockerfile设置国内代理。最后通过Docker Compose命令构建并启动包含API服务、工作进程、Playwright微服务和Redis数据库的多个容器。该部署方法简化了Firecrawl的本地运行环境搭建过

2025-11-23 00:59:30 147

转载货拉拉用户画像基于 Apache Doris 的数据模型设计与实践

货拉拉基于Apache Doris构建高效画像计算系统，实现人群标签批量计算与秒级圈选。面对3000+标签、5万+人群的业务规模，Doris通过宽表、高表和人群位图表三类存储模型协同工作，支撑精细化运营需求。系统采用位图计算为核心的异构查询方案，实现宽表、高表及人群表的无缝联动，查询性能提升30倍，内存开销降低50%。该架构支持无限层级规则嵌套，允许人群依赖计算，大幅提升营销活动效率。

2025-11-17 22:52:32 572

转载数仓设计 I：数据模型架构的四层七阶，数据湖仓建模的第一块基石

本文深入探讨了数据仓库的分层架构设计原则。文章提出了"四层七阶"的分层模型：1）ODS层作为原始数据存储；2）DW层为核心数据处理区，细分为DWD(明细)、DWM(中间)和DWS(汇总)三层；3）APP层面向应用服务；4）维表层专供维度管理。作者强调分层设计应遵循五大原则：高内聚低耦合、核心与扩展分离、公共逻辑下沉、成本性能平衡、数据可回滚。同时指出主题域划分可按业务过程或数据域两种方式，最终目标是构建清晰、稳定、可扩展的数据架构，为业务提供准确高效的数据支撑。

2025-11-16 23:00:22 52

原创 Apache Paimon 入门如何选择表模式

Apache Paimon数据湖支持多种表模式，包括主键表和Append表。主键表支持CDC数据变更处理，分为固定桶和动态桶模式，分别适用于分区内更新和跨分区更新场景。Append表则针对仅插入数据的场景，提供Scalable和Queue两种模式，前者适合高吞吐流处理和增强型Hive表场景，后者适用于严格顺序消费的需求。每种表模式均经过生产验证，用户可根据具体需求选择合适的数据处理方式。

2025-11-16 22:11:55 968

原创深入解析基于 RoaringBitmap 实现的 Bit Slice Index (BSI)

然后对二进制数据从低位向高位遍历，将第 i 位值为 1 的 user_id 存入切片 RoaringBitmap 的 slices[i] 中，形成位切片索引 BSI(Bit Slice Index)。剩下最重要的事情就是为 BSI 添加新的 KV，核心逻辑是在 value 二进制位对应切片 RoaringBitmap 中添加 key：从低位到高位遍历切片 RoaringBitmap，如果 value 二进制位对应的 bit 为 1 则对应的切片 RoaringBitmap 添加 key。

2025-11-16 22:03:36 570

原创 Maven 实战：Failure to find com.github.RoaringBitmap.RoaringBitmap:roaringbitmap:jar

摘要：Maven项目配置RoaringBitmap依赖时出现下载失败问题，错误显示阿里云镜像中未找到该依赖。分析表明Maven镜像配置将阿里云设为全局镜像，覆盖了JitPack仓库请求。解决方案分两步：1)在pom.xml中添加JitPack仓库配置；2)修改settings.xml文件，通过添加!jitpack.io将JitPack仓库从阿里云镜像覆盖中排除。这样可确保RoaringBitmap依赖从正确的仓库下载。

2025-11-15 10:17:11 500

原创用户画像实战：使用 RoaringBitmap 存储画像标签

摘要：本文探讨了用户画像标签存储方案，指出宽表存储在超大规模场景下存在效率问题，推荐使用Bitmap索引方案。文章分析了属性标签和行为标签的不同特点，提出属性标签适合Bitmap压缩存储，并通过实例说明如何避免多列层级关系导致的错误。实践部分展示了将宽表转换为Bitmap表并利用位图运算实现高效查询的方法，同时强调了对字符型用户ID进行整数编码的必要性，推荐使用RoaringBitmap和自定义Hive函数实现位图计算。该方案适用于标签数量多、数据规模大的场景，能显著提升查询性能。

2025-11-08 22:53:38 619

原创源码解读 | Flink SQL 深入了解 TableFactory 发现机制

可扩展性：基于 SPI 机制，支持用户自定义扩展灵活性：通过多级匹配策略处理复杂的 TableFactory 选择场景错误诊断：提供详细的错误信息帮助用户调试配置问题。

2025-11-02 22:18:52 954

转载深入解读 Flink SQL 1.11

自 2019 年初阿里巴巴宣布向 Flink 社区贡献 Blink 源码并在同年 4 月发布 Flink 1.8 版本后，Flink 在社区的活跃程度犹如坐上小火箭般上升，每个版本包含的 git commits 数量以 50% 的增速持续上涨，吸引了一大批国内开发者和用户参与到社区的生态发展中来，中文用户邮件列表（user-zh@）更是在今年 6 月首次超出英文用户邮件列表（user@），在 7 月超出比例达到了 50%。假设你在一个电商公司，订单和物流是你最核心的数据，你想要实时分析订单的发货情况。

2025-11-01 22:11:51 134

转载官宣 | Apache Flink 1.13 发布公告

在流式 SQL 查询中，一个最经常使用的是定义时间窗口。Flink 1.13 中引入了一种新的定义窗口的方式：通过 Table-valued 函数。这一方式不仅有更强的表达能力（允许用户定义新的窗口类型），并且与 SQL 标准更加一致。Flink 1.13 在新的语法中支持 TUMBLE 和 HOP 窗口，在后续版本中也会支持 SESSION 窗口。我们通过以下两个例子来展示这一方法的表达能力。例 2：用户在 table-valued 窗口函数中可以访问窗口的起始和终止时间，从而使用户可以实现新的功能。

2025-11-01 10:05:18 76

原创 Flink SQL 深入了解日期与时间函数

Flink SQL 提供了丰富的日期时间函数，包括获取当前系统时间的函数如 LOCALTIME、LOCALTIMESTAMP、CURRENT_DATE、CURRENT_TIMESTAMP/NOW()等。这些函数在不同时区下会返回对应时区的值（Flink 1.13.0+版本），类型分别为TIME(0)、TIMESTAMP(3)、DATE等。在流模式下会对每个记录计算，而批处理模式下只在查询开始时计算一次。使用时需注意时区设置对结果的影响。

2025-10-26 15:59:17 967

转载官宣 | Apache Flink 1.12 发布公告

Flink 1.12.0正式发布，带来了多项重要改进：DataStream API支持批处理模式，实现流批统一；新增基于Kubernetes的高可用方案；Kafka SQL connector支持upsert模式；PyFlink扩展支持DataStream API和Kubernetes部署。其他优化包括：新的Data Sink API、Pipelined Region调度、Sort-Merge Shuffle等。该版本包含300多位贡献者的1000多项修改，显著提升了可用性和API一致性。用户可从官网下载体

2025-10-22 23:16:48 118

原创实战 | Flink DataStream 如何通过 GenericWriteAheadSink 实现 WAL Sink

Flink 通过 WAL(预写日志)机制实现端到端 Exactly-Once 语义。核心原理是将每个 Checkpoint 周期的数据暂存到算子状态中，待 Checkpoint 完成后再写入外部系统。GenericWriteAheadSink 抽象类简化了 WAL Sink 的实现，但仍存在两种极端情况可能导致数据重复：发送过程中断或提交确认失败。文中以 StdOutWALSink 为例展示具体实现，采用 FileCheckpointCommitter 持久化已提交的 Checkpoint 信息。该方案虽不

2025-10-19 22:11:06 352

原创源码解读 | Flink DataStream GenericWriteAheadSink 深度解析

Flink 1.13.6 的 GenericWriteAheadSink 通过检查点机制实现端到端精确一次语义。该抽象类继承自 AbstractStreamOperator，采用预写日志模式，将输入元素暂存至状态后端，仅在检查点完成时提交数据。核心机制包括：1）构造器初始化检查点提交器；2）open()清理已提交的检查点；3）processElement()序列化数据到任务管理的状态流；4）检查点恢复时重建待提交列表。通过 CheckpointCommitter 标记成功提交的检查点，确保故障恢复时数据不丢

2025-10-19 20:08:29 705

原创 Flink SQL 如何使用 Upsert Kafka Connector

Flink Upsert Kafka Connector支持以upsert方式读写Kafka Topic数据，作为源表时可将Kafka数据转为变更日志流，作为结果表时能消费上游变更日志流。该连接器需要定义主键约束，提供至少一次语义保证，并支持分区级watermark。本文详细介绍了依赖配置、元数据、连接器参数及特性，并通过订单统计示例展示了如何创建Upsert Kafka结果表，将商品类别的订单数据聚合后写入Kafka。

2025-10-18 23:47:27 561

原创原理解析 | Flink SQL 流查询的确定性

本文探讨了SQL中确定性的概念及其在批处理和流处理中的表现差异。确定性指相同输入总能产生相同结果，但批处理中仍存在非确定性场景，主要源于动态函数（如CURRENT_TIMESTAMP）和不确定函数（如UUID()）的行为差异。流处理中，由于数据无界性，动态表上的连续查询会放大不确定性，包括源连接器回溯、处理时间计算和状态TTL淘汰等因素。Flink SQL的确定性仅限于计算部分，不包含外部数据源的不确定性。

2025-10-14 23:12:31 1025

转载 Flink SQL 非确定性更新（NDU）问题探索和规避

本文探讨了Flink流处理系统中的非确定性更新（NDU）问题及其解决方案。NDU问题主要由非确定函数（如RAND()、NOW()）、CDC元数据字段变化和维表JOIN引起，会导致状态匹配错误、数据丢失等问题。Flink 1.16版本通过物理计划检测和物化能力引入，能够识别并处理这些问题：对非确定函数直接报错提示，对维表JOIN则通过缓存状态避免不一致。虽然这些方案需要手动开启且存在一定代价，但建议用户尽早启用以降低修复成本。文章强调NDU问题无法彻底解决，需要根据业务场景权衡处理。

2025-10-13 22:39:40 698

原创 Flink SQL Kafka Connector

本文介绍了Flink 1.13版本中Kafka Connector的使用方法。主要内容包括：1) Kafka Connector的Maven依赖配置；2) 如何创建Kafka Source表并配置连接参数；3) 如何获取Kafka的元数据信息，如topic、partition、offset等；4) 详细列出了Kafka Connector的各项配置参数及其说明。文章通过SQL示例展示了如何定义Kafka表结构和元数据字段，并提供了完整的示例代码链接。该Connector支持从Kafka topic消费数据以

2025-10-12 23:09:49 837

翻译 Spark SQL 自适应查询执行 AQE: 在运行时加速执行性能

Spark 3.0引入的自适应查询执行(AQE)框架通过运行时优化显著提升了查询性能。AQE在查询执行过程中基于物化点收集的统计信息动态调整计划，提供三大核心功能：1)动态合并shuffle分区以优化任务粒度；2)运行时调整Join策略为更高效的广播hash join；3)自动检测并处理数据倾斜Join。TPC-DS测试显示查询性能最高提升8倍，平均提升1.1倍以上。AQE有效解决了静态统计信息不准确的问题，减少了对精确统计和手动调优的依赖，使查询优化对数据变化更具弹性。通过设置spark.sql.adap

2025-10-11 22:43:27 841

原创实战 | Flink CDC 使用 CDC 构建 Streaming ETL

本文介绍了如何使用Flink CDC构建MySQL和Postgres的实时ETL流程。教程通过Docker环境部署了MySQL（存储商品和订单数据）、Postgres（存储物流信息）、Elasticsearch（数据接收器）和Kibana（数据可视化）等组件。详细演示了如何准备数据源（在MySQL中创建products/orders表，Postgres中创建shipments表并插入测试数据），以及如何配置Flink环境（下载依赖包）。最终目标是实现订单表与商品、物流信息的实时关联，构建宽表并写入Elast

2025-10-08 19:16:38 755

原创 Flink CDC The MySQL server has a timezone offset which does not match the configured timezone Asia S

Flink CDC程序运行时因MySQL服务器时区（UTC）与配置时区（Asia/Shanghai）不匹配导致异常。解决方案包括修改MySQL时区为+08:00（临时或持久化配置），或调整Flink CDC的server-time-zone参数。建议根据业务需求选择合适方案，确保时间字段处理一致。修改MySQL时区后需验证配置是否生效（SHOW VARIABLES LIKE '%time_zone%'）。注意临时修改重启后失效，持久化配置需修改my.cnf文件或使用MySQL 8.0+的SET PERSIS

2025-10-08 18:43:00 347

原创优化 | Hive Join 优化之 Skew Join 实战

文章摘要：本文介绍了Hive中的Skew Join优化技术，用于解决数据倾斜问题。当某些Join Key记录数异常多时，常规Join会导致性能问题。Skew Join通过自动检测倾斜Key（通过hive.skewjoin.key参数设置阈值），将处理分为两部分：对倾斜Key使用Map Join策略，对非倾斜Key仍用Common Join，最后合并结果。文章通过订单表关联省份表示例，对比了优化前后的执行计划差异，并说明了需要配置hive.optimize.skewjoin和hive.skewjoin.ke

2025-10-08 10:39:42 617

原创优化 | Hive Join 优化之 Sort Merge Bucket Map Join 实践

Hive中的Sort Merge Bucket Map Join（SMB Map Join）是在Bucket Map Join基础上优化的连接方式，它要求两表在Join Key上预先分桶且排序。相比Bucket Map Join使用Hash Join算法，SMB Map Join采用更高效的Sort Merge Join算法。启用该优化需配置hive.optimize.bucketmapjoin.sortedmerge=true等参数，支持自动转换无需手动提示。通过案例演示，SMB Map Join能有效提

2025-10-05 19:56:57 907

原创优化 | Hive Join 优化之 Bucket Map Join 实践

Hive的Bucket Map Join是一种优化大表Join大表的技术，要求两表均为分桶表且桶数量成倍数关系。使用时需手动添加Hint提示并配置相关参数（如关闭CBO优化）。以订单表关联支付表为例，优化前使用Common Join需MapReduce作业完成，而Bucket Map Join可显著提升性能。执行计划显示优化前包含两个阶段：MapReduce阶段和结果返回阶段。

2025-10-04 09:15:08 555

原创实战 | Hive 执行计划可视化工具 hive-query-plan-viz

本文介绍了如何在Mac环境下搭建并运行Hive查询计划可视化工具。首先通过Homebrew安装必要的软件包管理器，然后使用nvm管理Node.js版本（需确保版本≤14）。接着下载源码并安装项目依赖，通过npm run serve启动开发服务器进行实时调试。文章详细说明了打包步骤（npm run build）以及如何通过Python或http-server预览打包后的项目。最后展示了如何使用格式化后的Hive执行计划（JSON格式）在可视化工具中生成执行计划图，并以COUNT DISTINCT查询为例演示了

2025-10-01 20:25:03 610

原创实战 | Mac 如何使用 nvm 管理 node 版本

现在想使用 nvm 安装特定版本的 node，例如。当前你也可以再切换回原先 node 版本，使用。

2025-10-01 19:24:50 416

原创 Flink CDC YAML：面向数据集成的 API 设计

Flink CDC 是一个基于数据库日志的变更数据捕获技术，能够实现全量和增量数据的一体化读取，提供端到端的流式数据集成框架。3.0版本后，Flink CDC不仅支持数据源读取，还支持写入下游系统，确保实时性和精确一次语义。相比传统CDC方案（如DataX+Debezium组合），Flink CDC简化了流程，通过单一作业即可完成同步，支持亚秒级延迟和YAML配置。其核心优势包括全增量一体化处理、细粒度Schema Evolution支持、强大的ETL转换能力，以及社区驱动的持续演进。Flink CDC 3

2025-09-25 23:19:23 1104

原创实战 | Flink SQL Deduplication 高效去重

摘要本文介绍了 Flink SQL 中的去重操作(Deduplication)，通过 ROW_NUMBER() 窗口函数实现数据去重。文章详细讲解了两种去重策略：保留第一行(Keep FirstRow)和保留最后一行(Keep LastRow)，分别对应正序(ASC)和倒序(DESC)排序方式。针对每种策略，提供了基于处理时间和事件时间的示例代码，并分析了不同情况下的输出结果特性。保留第一行时，基于处理时间的去重输出为 Append-only 流，而基于事件时间的去重则可能产生 Retract 流。文章包

2025-09-21 22:40:28 916

原创实战 | Flink SQL 窗口 TopN

窗口TopN是一种特殊的TopN操作，基于窗口表值函数(TVF)实现，为每个窗口和分区键返回N个最小或最大值。与流式TopN不同，窗口TopN在窗口结束时输出最终结果，产生Append-only流，不会出现回撤数据。其语法要求PARTITION BY子句必须包含window_start和window_end列。目前仅支持与滚动、滑动和累积窗口配合使用，不支持会话窗口。通过示例展示了如何计算每10分钟内销售额最高的前2个商品类目，结果以追加方式输出，不会产生中间结果或回撤记录。

2025-09-21 08:56:31 1125

转载优化 | 如何写出简单高效的 Flink SQL

摘要：Flink SQL 最佳实践重点介绍了如何通过优化器提升查询性能，包括减少重复计算、状态访问等关键点。文章深入解析了 Flink SQL 的编译优化过程，特别强调了子图复用（Sub-Plan Reuse）和聚合优化（Fast Aggregation）两大核心技术。通过 MiniBatch 和两阶段聚合（Local/Global）可有效解决状态频繁访问和数据倾斜问题。最佳实践建议：对延迟不敏感场景开启 MiniBatch，结合视图复用减少计算量，利用两阶段聚合缓解热点问题。（149字）

2025-09-20 19:14:33 651

原创实战 | Flink SQL 流式 TopN 实战

Flink SQL 中的 TopN 功能用于实时计算排行榜，支持分组和全局排序。语法通过两层查询实现：内层使用 ROW_NUMBER() 窗口函数计算排名，外层筛选 TopN 记录。TopN 支持两种算法：UpdateFastRank（高性能）和 RetractRank（通用）。示例展示了商品类目销售额 Top3 的计算过程，包括数据更新时的动态排名变化。该功能适用于实时统计报表和大屏展示场景，能够高效处理流式数据的动态排序需求。

2025-09-20 19:09:22 753

原创 Flink 1.13.6 VM option ‘UseG1GC‘ 异常导致 Task Slots 为 0

Flink集群启动后Task Slots显示为0，检查日志发现JVM因-XX:+UseG1GC参数冲突无法启动。问题源于Flink默认配置与低版本JDK8不兼容，需通过-XX:+UnlockExperimentalVMOptions解锁实验性功能。解决方案：1）升级Java版本（推荐）；2）修改taskmanager.sh脚本，添加解锁参数后重启集群即可修复。后者为临时方案，适用于无法立即升级JDK的环境。问题解决后Web UI可正常显示可用Slots。

2025-09-13 23:38:57 373

apache-mahout-distribution-0.11.1-src

Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念，并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。

2015-11-30

【1】2015 浙江大华校园招聘算法、软件类笔试题

第一部分2015 【1】2015 浙江大华校园招聘算法、软件类笔试题

2015-11-27

2015 小米校园招聘笔试题

2015-12-17

2015 中体彩测试工程师笔试题

2015-12-17

log4j-1.2.17

Apache log4j 1.2.17 is distributed under the Apache License, version 2.0. The link in the Mirrors column should display a list of available mirrors with a default selection based on your inferred location. If you do not see that page, try a different browser. The checksum and signature are links to the originals on the main distribution server.

2015-11-30

LINUX内核设计与实现

《Linux内核设计与实现(原书第3版)》主要内容包括：进程管理、进程调度、时间管理和定时器、系统调用接口、内存寻址、内存管理和页缓存、VFS、内核同步以及调试技术等。同时《Linux内核设计与实现(原书第3版)》也涵盖了Linux 2.6内核中颇具特色的内容，包括CFS调度程序、抢占式内核、块I/O层以及I/O调度程序等。《Linux内核设计与实现(原书第3版)》采用理论与实践相结合的路线，能够带领读者快速走进Linux内核世界，真正开发内核代码。《Linux内核设计与实现(原书第3版)》适合作为高等院校操作系统课程的教材或参考书，也可供相关技术人员参考。

2015-12-14

JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发

《轻量级Java EE企业应用实战：Struts 2+Spring 3+Hibernate整合开发》是2008年电子工业出版社出版的图书，作者是李刚。《轻量级JavaEE企业应用实战》一书于2008年由电子工业出版社出版发行，该书是《轻量级J2EE企业应用实战》的第二版，同时还融合了《整合Struts+Hibernate+Spring应用开发详解》理论部分。实际上，该书凝结了前两本书的精华部分。该书介绍了Java EE领域的三个开源框架：Struts 2、Spring和Hibernate。其中Struts 2升级到2.1.2，Spring升级到2.5.5，Hibernate升级到3.2.6。该书保留《轻量级J2EE企业应用实战》里关于Tomcat、 Jetty的介绍，新增了关于Ant、CVS的内容。

2015-12-17

Android技术内幕.系统卷

《Android技术内幕:系统卷》是国内首本系统对Android的源代码进行深入分析的著作。全书将Android系统从构架上依次分为应用层、应用框架层、系统运行库层、硬件抽象层和Linux内核层等5个层次，旨在通过对Android系统源代码的全面分析来帮助开发者加深对Android系统架构设计和实现原理的认识，从而帮助他们解决开发中遇到的更加复杂的问题。《Android技术内幕:系统卷》分为两卷，系统卷主要分析了Linux内核层、硬件抽象层和系统运行库层的各个模块的底层原理和实现细节；应用卷主要分析了应用层和应用框架层的各个模块的底层原理和实现细节。具体而言，系统卷第1章首先从宏观上介绍了Android系统的架构以及各个层次之间的关系，然后介绍了如何获取Android源代码并搭建Android源代码开发环境和阅读环境的方法；第2章有针对性地剖析了Android的内核机制和结构，以及Android对Linux内核的改动和增强；第3章分析了Binder的架构和工作机制，以及Binder驱动的实现原理；第4章分析了Android电源管理模块的机制与实现；第5章全面地剖析了Android硬件设备驱动（显示、视频、音频、MTD、Event、蓝牙、WLAN等）的工作原理和实现，掌握这部分内容即可修改和编写基于Android的设备驱动程序；第6章深刻阐述了Android原生库的原理及实现，涉及系统C库、功能库、扩展库和原生的Server等重要内容；第7章系统地讲解了硬件抽象层的原理与实现，掌握这部分内容即可编写适合特定硬件设备驱动的抽象层接口；第8章和第9章是对系统运行库层的分析，主要讲解了Dalvik虚拟机的架构、原理与实现，以及Android的核心库相关的知识，掌握这部分内容即可完成对Android运行库的移植和修改。

2015-12-17

Android高级编程

《Android高级编程》首先简要介绍Android软件栈，接着陈述为手机创建稳定可靠、赏心悦目的应用程序的基本原理。通过学习，您可以打下牢固的理论根基，了解使用当前Android 1．0 SDK编写定制移动程序所需的知识，还能灵活快捷地运用未来的增强功能构建最前沿的解决方案。 Android提供一个开放的开发环境，为针对移动设备编写创新应用程序带来了激动人心的新机遇。作为使用AndroidSDK构建这些应用程序的实用指南书籍，《Android高级编程》从始至终穿插了一系列示例项目，每个项目都引入Android的新功能和新技术，以助您达到最圆满的学习效果。书中介绍Android的所有基本功能，并通过简明扼要的示例引导您使用高级功能。

2015-12-17

Android开发精要

如何才能写出贴近Android设计理念、能够更加高效和可靠运行的Android应用？通过Android的源代码去了解其底层实现细节是最重要的方法之一！然而，Android系统太过于庞大，源代码实现复杂，学习的技术门槛和时间成本都很高。有没有一种方法既能帮助开发者深入理解Android应用开发，又能不被底层大量的实现细节所羁绊，迅速掌握编写高质量Android应用所需的知识？本书针对这个问题给出了完美的答案！它从Android繁杂的源代码中抽取出了Android开发的“精华”和“要点”，剥离了大量琐碎的底层实现细节，进行了高度概括和总结，不仅能帮助开发者迅速地从宏观上理解整个Android系统的设计理念，而且能帮助开发者迅速地从微观上掌握核心知识点的原理，从而编写出高质量的Android应用。[1] 本书共13章，在逻辑上分为4个部分。第一部分（1～2章）：第1章系统介绍了Android的系统架构、核心模块和设计思想，旨在让读者真正理解它的设计理念；第2章讲解了Android源代码的获取、编译、阅读和编辑的方法。第二部分（3～6章）：第3章深入阐述了Android组件机制的设计理念和重要特征，并详细介绍了4大组件的方法和原理；第4章讲解了Intent对象和Android的意图机制，阐明了Android是如何将来自不同应用、不同进程的组件整合在一起的；第5章解析了Android中各个组件的生命周期，包括组件的进程模型和线程模型；第6章从开发的角度详细阐述了组件间数据传输的解决方案，以及它们的优缺点和适用场景。第三部分（7～8章）：第7章深入讲解了Android的控件框架，结合实际项目对重要控件的实现和使用逐一进行了分析，还包含Android 4.0界面开发的实践“精华”；第8章分析了Android的资源体系，剖析了Android底层对资源的处理。第四部分（9～13章）：第9章讲解了Android的数据存储结构，以及不同数据存储模式的使用要点；第10章分析了Android的各种网络连接方式，涵盖NFC和基于WiFi的P2P连接等内容；第11章讲解了Android的定位服务、地址服务和地图服务的框架实现；第12章仔细分析了Android各种多媒体功能的实现机制；第13章对Android中比较有特色的一些模块的实现细节进行了分析。

2015-12-17

2016 恒生电子校园招聘笔试题

2015-12-17

2015 腾讯校园招聘技术类研发笔试题

2015-12-17

重构-改善即有代码的设计

本书清晰揭示了重构的过程，解释了重构的原理和最佳实践方式，并给出了何时以及何地应该开始挖掘代码以求改善。书中给出了70多个可行的重构，每个重构都介绍了一种经过验证的代码变换手法的动机和技术。本书提出的重构准则将帮助你一次一小步地修改你的代码，从而减少了开发过程中的风险。

2015-12-14

2015 新浪微博校园招聘笔试题

2015-12-17

Mahout算法解析与案例实战

本书是一本经典的Mahout著作，原理与实战并重。不仅全面分析了Mahout算法库中不同模块中的各个算法的原理及其Mahout实现流程，而且每个算法都辅之以实战案例。此外，还包括4个系统级案例，实战性非常强。全书共11章分为三个部分：第一部分为基础篇（第1~2章），首先介绍了Mahout的应用背景、Mahout算法库收录的算法、Mahout的应用实例，以及开发环境的搭建；第二部分为算法篇（第3~7章），分析了Mahout算法库中不同模块的各个算法的原理以及Mahout实现流程，同时在每章书末含有每个算法的实战，让读者可以自己运行程序，感受程序运行的各个流程；第三部分为实战篇（第8~11章），通过对4个不同系统案例的分析讲解，让读者了解一个完整的云平台系统的各个流程，从需求到系统框架到系统功能再到功能开发。

2015-12-16

Eclipse Maven插件

eclipse-maven插件。官网并不提供 maven 插件的离线安装包，在网上搜一下maven 的离线安装即可。

2015-11-30

apache-maven-3.3.9-bin

Apache Maven 3.3.9 is the latest release and recommended version for all users. The currently selected download mirror is http://www.us.apache.org/dist/. If you encounter a problem with this mirror, please select another mirror. If all mirrors are failing, there are backup mirrors (at the end of the mirrors list) that should be available. You may also consult the complete list of mirrors.

2015-11-30

算法艺术和信息学竞赛

本书即为信息学界著名的两本“黑书”之一（另一本为吴文虎、王建德编著的实用算法的分析与程序设计，这本书现在已经在市场是接近绝版，但是在网上能找到电子书·如果想找到替代品的话可以找另外一本由吴文虎教授以及王建德先生编著的黑书《新编实用算法的分析与程序设计》，由北京邮电出版社2008年出版，此书与原版表面内容相差较大，但实质没有太大差别）。

2015-12-14

【4】2015 网易游戏校园招聘运维开发岗笔试题

第一部分2015 【4】2015 网易游戏校园招聘运维开发岗笔试题

2015-11-27

【5】2015 网易游戏校园招聘笔试题游戏插件研发岗

第一部分2015 【5】2015 网易游戏校园招聘笔试题游戏插件研发岗

2015-11-27

Better bitmap performance with Roaring bitmaps

2023-03-06

Encoded Bitmap Indexing for Data Warehouses

2023-03-04

数仓规范化-菜鸟数据模型管理实践

数仓规范化—菜鸟数据模型管理实践 PDF

2023-02-19

美团外卖离线数仓建设实践

美团外卖数据仓库主要是收集各种用户终端业务、行为数据，通过统一口径加工处理，通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门，支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程，在发展过程中碰到的痛点问题，以及针对痛点做的一系列优化解决方案

2023-02-19

log4j所需jar包

Log4j是Apache的一个开源项目，通过使用Log4j，我们可以控制日志信息输送的目的地是控制台、文件、GUI组件，甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等；我们也可以控制每一条日志的输出格式；通过定义每一条日志信息的级别，我们能够更加细致地控制日志的生成过程。最令人感兴趣的就是，这些可以通过一个配置文件来灵活地进行配置，而不需要修改应用的代码。

2016-01-20

jdom-2.0.6.zip

JDOM是一种使用 XML（标准通用标记语言下的一个子集）的独特 Java 工具包，。它的设计包含 Java 语言的语法乃至语义。

2016-01-03

AspectJ所需Jar包

AspectJ 1.8.8 版本更新时间 2016/02/12

2016-02-12

Hadoop实战中文版

为云计算所青睐的分布式架构，Hadoop是一个用Java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算，是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分，深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。　《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

2015-12-25

Spring-Jar-4.2.4

Spring应用开发使用的全部jar包： Spring-core.jar Spring-context.jar Spring-expression.jar Spring-beans.jar commons-logging.jar

2016-01-28

Apache Spark源码剖析

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点，着力于探寻Spark所要解决的主要问题及其解决办法，通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

2016-11-12

Android开发秘籍

作为google 开发的全新开源手机平台，android 发展如火如荼。本书通过大量代码秘诀全面详尽地讲述了android 开发技术。从activity 和intent 基础知识开始，到线程、服务、broadcast receiver 以及alert 警告框，再到用户界面布局、界面事件、多媒体技术、硬件接口、网络通信、数据存储方法、基于位置的服务、android 高级开发技术和调试，书中贯穿了经android 设备或者模拟器测试的可用范例，将功能丰富、结构复杂的android 应用程序清晰完美地展现给开发人员。对于那些有志于android 应用开发的人员来说，本书是难得的参考读物。

2015-12-17

mysql-connector-java-5.1.38

mysql驱动jar包峰

2016-01-21

大型网站技术核心原理与案例分析

本书通过梳理大型网站技术发展历程，剖析大型网站技术架构模式，深入讲述大型互联网架构设计的核心原理，并通过一组典型网站技术架构设计案例，为读者呈现一幅包括技术选型、架构设计、性能优化、Web 安全、系统发布、运维监控等在内的大型网站开发全景视图。本书不仅适用于指导网站工程师、架构师进行网站技术架构设计，也可用于指导产品经理、项目经理、测试运维人员等了解网站技术架构的基础概念；还可供包括企业系统开发人员在内的各类软件开发从业人员借鉴，了解大型网站的解决方案和开发理念。

2015-12-25

Shell脚本学习指南

《Shell脚本学习指南》将告诉你这些有关UNIX主流工具的知识。除此之外，《Shell脚本学习指南》还会帮助你解决UNIX命令与标准的差异。作者熟知UNIx程序使用的基本技巧与操作上细微的差异。他们不但会告诉你如何构建一个绝佳的脚本，还会教你如何避免落入让你功亏一篑的陷阱。有了《Shell脚本学习指南》，你可以节省很多力气。我们要学习的不只是如何写出有用的Shell脚本，你还得了解如何迅速、确实地定制Shell，让程序的可移植性达到最佳状态，脱离对特定系统的依赖。这些技巧对任何操作与维护UNIX及Linux系统的人而言都很重要。《Shell脚本学习指南》所提供的知识，将可以帮助你掌握基本的Shell脚本编写技巧。Shell脚本编程(scripting)的技巧永远不会过时：它们可以让UNIX充分发挥其真实的潜能。对uNIx的用户与系统管理者而言

2016-05-28

Android应用开发揭秘

国内第一本基于Android 2.0的经典著作，5大专业社区联袂推荐，权威性毋庸置疑！本书内容全面，不仅详细讲解了Android框架、Android组件、用户界面开发、游戏开发、数据存储、多媒体开发和网络开发等基础知识，而且还深入阐述了传感器、语音识别、桌面组件开发、Android游戏引擎设计、Android应用优化、OpenGL等高级知识，最重要的是还全面介绍了如何利用原生的C/C++（NDK）和Python、Lua等脚本语言（Android Scripting Environment）来开发Android应用；本书实战性强，书中的每个知识点都有配精心设计的示例，尤为值得一提的是，它还以迭代的方式重现了各种常用的Android应用和经典Android游戏的开发全过程，既可以以它们为范例进行实战演练，又可以将它们直接应用到实际开发中去。

2015-12-17

Redis　入门指南

《Redis入门指南》是2013年人民邮电出版社出版的图书，作者是李子骅。该书是一本Redis的入门指导书籍，以通俗易懂的方式介绍了Redis基础与实践方面的知识，包括历史与特性、在开发和生产环境中部署运行Redis、数据类型与命令、使用Redis实现队列、事务、复制、管道、持久化、优化Redis存储空间等内容，并采用任务驱动的方式介绍了PHP、Ruby、Python和Node.js这4种语言的Redis客户端库的使用方法。

2017-06-02

Java 1.7 中文帮助文档

Java 1.7 中文帮助文档.

2015-12-27

精通Spring

本书深入剖析了当前流行的轻量级开发框架Spring技术。本书总共分成3部分。第一部分，重点阐述Spring的架构。这部分内容循序渐进带领开发者进入Spring中。主要在于阐述Spring IoC和Spring AOP。第二部分，重点阐述Spring的使用。这部分内容从简化Java/J2EE的角度出发，从J2EE平台各个技术层面分析、并给出大量的研究实例，对Spring提供的API进行阐述。主要在于阐述Spring对J2EE API提供的服务抽象。第三部分，重点阐述Spring高级专题。这部分内容重点对视图技术进行了研究，因为对于开发Web应用而言，前端界面的开发往往工作量很大。因此，使用合理的视图技术开发Web应用对于项目的成功与否很关键。

2016-02-07

TA关注的人

apache-mahout-distribution-0.11.1-src

【1】2015 浙江大华校园招聘算法、软件类笔试题

2015 小米校园招聘笔试题

2015 中体彩测试工程师笔试题

log4j-1.2.17

LINUX内核设计与实现

JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发

Android技术内幕.系统卷

Android高级编程

Android开发精要

2016 恒生电子校园招聘笔试题

2015 腾讯校园招聘技术类研发笔试题

重构-改善即有代码的设计

2015 新浪微博校园招聘笔试题

Mahout算法解析与案例实战

Eclipse Maven插件

apache-maven-3.3.9-bin

算法艺术和信息学竞赛

【4】2015 网易游戏校园招聘运维开发岗笔试题

【5】2015 网易游戏校园招聘笔试题游戏插件研发岗

Better bitmap performance with Roaring bitmaps

Encoded Bitmap Indexing for Data Warehouses

数仓规范化-菜鸟数据模型管理实践

美团外卖离线数仓建设实践

log4j所需jar包

jdom-2.0.6.zip

AspectJ所需Jar包

Hadoop实战中文版

Spring-Jar-4.2.4

Apache Spark源码剖析

Android开发秘籍

mysql-connector-java-5.1.38

大型网站技术核心原理与案例分析

Shell脚本学习指南

Android应用开发揭秘

Redis 入门指南

Java 1.7 中文帮助文档

精通Spring

dubbo-admin-2.5.4

2015 搜狗校园招聘研发类笔试题

Hive Range Between 结果错误问题

Storm Trident 抛异常不重发

hive SERDEPROPERTIES 实现正则过滤

Flink 关于窗口Window的问题

Hive 运行SQL 重定向文件 输出WARN日志

Hadoop Distcp报错 队列问题

Hive Join 失败

Hive 查询问题

Hive LOAD DATA 错误

[ElasticSearch] 中文字符串精确搜索 term 搜不到结果

mysql group by 统计问题

大型分布式网站架构的演进

ubuntu IntelliJ Idea设置快捷方式问题

罗技键盘 k380 连接上 没有任何的反应？

Maven archetype:generate报错

Log4j问题

Java Stringbuilder调用append()方法报错

nosql开放性问题

Redis　入门指南

Hive 运行SQL　重定向文件　输出WARN日志

Hadoop Distcp报错队列问题

罗技键盘 k380 连接上没有任何的反应？