自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SmartSi

一起陪伴大数据成长

  • 博客(2333)
  • 资源 (69)
  • 问答 (17)
  • 收藏
  • 关注

原创 数据月报指南

为您准备了阿里、字节、百度等大厂实践案例

2024-07-06 09:53:57 229

原创 Hive 高分笔记

Hive 高分笔记

2022-11-20 15:59:49 1226 2

原创 Flink 源码解读

Flink 源码解读系列

2022-09-18 22:29:14 472

原创 那些年我们踩过的 Flink 坑系列

那些年我们踩过的 Flink 坑系列

2022-07-31 17:40:19 483

原创 Spark 学习笔记

Spark 系统性学习笔记系列

2022-07-31 17:36:50 1124

原创 Flink 系统性学习笔记

Flink 学习笔记

2022-07-31 17:30:55 1560

原创 大数据高分笔记

1. hadoop Hadoop 2.7.3 安装与启动 Hadoop 2.10.1 安装与启动 Hadoop 第一个应用程序 WordCount Hadoop MapReduce 新旧 mapred 与 mapreduce API Hadoop 利用 ToolRunner 运行 MapReduce Hadoop MapReduce Block 与 InputSplit 的区别与联系 Hadoop MapReduce 多路径输入与多个输入 Hadoop MapReduce 多文件输出 M

2022-07-24 08:38:48 1093

转载 Java 定时任务技术趋势

定时任务是每个业务常见的需求,比如每分钟扫描超时支付的订单,每小时清理一次数据库历史数据,每天统计前一天的数据并生成报表等等。

2024-07-20 09:52:25 2

原创 用户画像实战:基于 ROW_NUMBER 的全局字典设计与实现

当业务标签越来越多时,宽表标签计算的方案将不再适合,因为当列越多时,更新效率将会越慢。一种优化方案是通过对标签表构建索引,将用户ID编码后以 Bitmap 格式保存(一般使用 RoaringBitmap 进行压缩存储),将关系运算转化 Bitmap 的交并差运算,进而加速实时

2024-07-17 23:48:58 666

转载 精通Quartz:Java中的时间管理与任务调度专家

Quartz 的核心类和工作机制共同构成了一个高效且灵活的任务调度系统。尽管Quartz在设计上注重简洁和性能,但它的确切实现细节和架构选择显示出其在处理复杂任务调度场景中的强大能力。总的来说,Quartz作为Java中的时间管理与任务调度专家,提供了一套全面且高效的解决方案,以应对各种复杂的调度需求。其灵活的配置选项、与SpringBoot的无缝集成以及强大的集群支持,使其在Java应用中的任务调度领域独树一帜。

2024-07-14 20:34:57 11

原创 DolphinScheduler 实战:使用 Standalone 单机部署 DolphinScheduler

Standalone 仅适用于 DolphinScheduler 的快速体验。如果你是新手,想要体验 DolphinScheduler 的功能,推荐使用 Standalone 方式体检。如果你想体验更完整的功能,或者更大的任务量,推荐使用伪集群部署。如果你是在生产中使用,推荐使用集群部署或者kubernetes。

2024-07-13 22:23:08 747

原创 2023年04月数据月报

2023年04月数据月报,为您准备了阿里、字节、百度等大厂80多篇实践案例

2024-07-06 09:49:32 1062

原创 2024年06月数据月报

2024年06月数据月报,为您准备了阿里、字节、百度等大厂130+篇实践案例

2024-07-06 09:43:06 678

转载 从 0 到 1 快速入门 Apache SeaTunnel 新一代数据集成平台的原理和实践

今天我来分享从 0 到 1 快速入门 Apache SeaTunnel(Incubating),主要从以下6个方面进行,首先第一个方面是对数据集成做一个简单的概括,第二个是对 SeaTunnel 做简单的介绍,第三是介绍 SeaTunnel 当前的原理和架构演进,第四个方面是对当前市面上一些比较常见的数据集成工具进行对比,来解读一下现在市面上已经有了那么多数据集成工具,为什么我们还要再去“造轮子”,第五个方面是通过案例demo来展示一下SeaTunnel强大的能力,第六是介绍 SeaTunnel 的 Roa

2024-07-01 22:38:07 53

转载 Apache SeaTunnel 究竟是什么?

Apache SeaTunnel的项目介绍是“一个高性能的、分布式的、大规模数据集成工具,提供了异构数据集成和数据同步的一体化解决方案。源连接器转换连接器目标连接器许多源连接器(Connector)可供选择;

2024-07-01 07:38:53 24

原创 用户画像实战:使用宽表存储画像标签

如果在线画像分析服务按照这样的数据模型组织标签数据,不可避免的需要 Join 多张标签表来完成多标签的过滤,这对于数据库产品开销太大。我们可以将相对稳定的标签表离线聚合成宽表,将多张表的关联操作转化成对一张表的过滤计算,新的标签列的场景可以通过增加列的方式实现

2024-06-30 21:56:33 929

转载 走近数据变更捕获(CDC):定义、优势和用例

数据变更捕获(CDC)是一种捕捉数据变更的技术。它能实时监控数据源(如数据库、应用系统等)中数据的增、删、改等变化,并记录下这些变更信息。与传统批处理方式相比,CDC 实现了近乎实时的数据集成和同步,使企业能够随时掌握最新信息,从而基于数据做出及时决策。

2024-06-30 08:50:48 17

原创 快手如何从0到1构建一个好的用户画像平台?

在快手从 0 到 1 搭建起快手画像平台,也见证了平台在各个业务端应用的过程,基于这些工作经验的总结和沉淀,其编写了《用户画像:平台构建与业务实践》一书,本次分享的内容大部分也包含在本书中。

2024-06-29 21:49:45 733

原创 Hive 实战:位图 Bitmap 系列-位图计算函数

ClickHouse 提供了一系列用于位图索引和计算的函数,这些功能特别适用于处理大量的分布式聚合,可以高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建用户自定义函数来实现。在这我们基于 RoaringBitmap 实现了一系列的位图函数。

2024-06-15 13:32:50 882

转载 字节用户画像标签分析及业务场景应用

随着企业数字化转型的深入发展,对用户深层理解的渴望日益迫切。在此背景下,本次分享精心剖析了用户画像标签的精髓及其在多变业务场景中的关键作用。从基础属性标签到策略上的标签,不仅系统性地介绍了各类型标签的构建与应用,还着重强调了在快节奏的数字化时代中,如何通过高效的异常值处理、时间衰减考量及数据区分度提升等手段,确保标签的准确性和实用性。并且深入讨论了如何长期评估和追踪用户画像的内聚性和稳定性,为数据产品经理提供了一把锐利的工具,助力其在激烈的市场竞争中准确把握用户需求,不断提升产品和策略的效能。

2024-06-13 07:12:52 42

原创 Hive 实战:位图 Bitmap 系列-group_bitmap UDAF 实现解析

在 ClickHouse 中,groupBitmap 函数用于从整数列聚合生成位图,常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建一个用户自定义聚合函数(UDAF)来实现 groupBitmap。这里将详细介绍如何在 Hive 中实现一个类似 groupBitmap 的自定义函数,包括 UDAF 的定义、编译、注册以及使用步骤。

2024-06-10 12:44:33 1182 2

原创 Hadoop 实战:找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

在运行 Hive SQL 程序时抛出异常,查看 YARN 的 resourcemanager 日志发现异常

2024-06-09 22:28:28 667 1

原创 Hive 实战:位图 Bitmap 系列-bitmap_and 函数实现解析

在 ClickHouse 中,bitmapAnd 函数用于计算两个位图 Bitmap 的交集,常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建一个用户自定义函数(UDF)来实现 bitmapAnd。这里将详细介绍如何在 Hive 中实现一个类似 bitmapAnd 的 UDF,包括 UDF 的定义、编译、注册以及使用步骤。

2024-06-08 18:05:51 967

转载 基于用户投票的排名算法(六):贝叶斯平均

上一篇介绍了威尔逊区间,它解决了投票人数过少、导致结果不可信的问题。举例来说,如果只有2个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后

2024-06-08 09:11:11 33

转载 基于用户投票的排名算法(五):威尔逊区间

迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章"。但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。这时,时间因素就不需要考虑了。这个系列的最后两篇,就研究不考虑时间因素的情况下,如何给出排名

2024-06-08 09:02:10 27

转载 基于用户投票的排名算法(四):牛顿冷却定律

如果你想放慢 “热文排名” 的更新率,“冷却系数” 就取一个较小的值,否则就取一个较大的值。但是,为了保证所有人都在同一页上,我再说一下,到目前为止,我们用不同方法,企图解决的都是同一个问题:根据用户的投票,决定最近一段时间内的 “热文排名”。这样假设的意义,在于我们可以照搬物理学的冷却定律,使用现成的公式,建立 “温度” 与 “时间” 之间的函数关系,轻松构建一个 “指数式衰减”(Exponential decay)的过程。你可能会觉得,这是一个全新的课题,伴随着互联网而产生,需要全新的方法来解决。

2024-06-07 22:20:51 588

转载 基于用户投票的排名算法(三):Stack Overflow

上一篇文章,我介绍了 Reddit 的排名算法。它的特点是,用户可以投赞成票,也可以投反对票。也就是说,除了时间因素以外,只要考虑两个变量就够了。但是,还有一些特定用途的网站,必须考虑更多的因素。世界排名第一的程序员问答社区 [Stack Overflow](http://stackoverflow.com/?tab=hot),就是这样一个网站。

2024-06-07 07:00:21 32

转载 基于用户投票的排名算法(二):Reddit

得到净反对票的文章,会排在最后(因为得分 是负值)。假定同一时间有两个帖子发表,文章 A 有 1 张赞成票(发帖人投的)、0 张反对票,文章 B 有 1000 张赞成票、1000 张反对票,那么 A 的排名会高于 B,这显然不合理。结合前一部分,可以得到结论,如果前一天的帖子在第二天还想保持原先的排名,在这一天里面,它的 z 值必须增加 100 倍(净赞成票增加 100 倍)。结论就是,Reddit 的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。

2024-06-06 07:47:07 42

转载 基于用户投票的排名算法(一):Delicious 和 Hacker News

互联网的出现,意味着 “信息大爆炸”。用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。

2024-06-06 07:26:06 30

转载 流计算系统选哪个?

今天从技术的角度聊聊流计算(Streaming)技术。尽管概念上有许多共通之处,例如时间窗口、水位(Watermark)等等,但其实在实现层面上,各个系统几乎都有独特的设计。所谓“存在即合理”,这种系统设计的多样性也正呼应了流计算应用场景的多样性,而并非简单的单一维度上的孰好孰坏。本文从内部实现的角度,深入对比了市面上常见的流计算系统,包括 Apache Flink、RisingWave、Spark Streaming、ksqlDB 等。希望这篇文章能在技术选型时对你有帮助。

2024-06-05 22:08:09 38

转载 RisingWave: 一个云原生流数据库

流处理系统(下文简称流系统)是现代数据栈中十分重要的技术方向,它们是针对流数据的实时分析而量身定做的。在过去的几十年里,研究人员和从业人员投入了大量的精力来开发大规模,高性能和高可用的流处理系统。基于这些努力,现如今,开源抑或商业化的流系统已在各大公司的技术栈中长期运行,支持着成千上万的应用,包括广告推荐、欺诈检测、物联网分析,诸如此类。随着流处理领域取得的重大进展,越来越多的公司开始研究现代流系统,并渴望看到现代技术如何改变他们的业务。可惜的是,其中许多公司在他们的试水过程中陷入困境。

2024-06-04 23:11:02 27

转载 重新定义流计算:第三代流处理系统 RisingWave 的 2024 年展望

流处理技术在过去的 20 年里经历了从学术概念到商业应用的演变。流处理系统从无到有,我们见证了从第一代数据流管理系统如 IBM System S、Oracle CQL、Esper 等,到第二代基于 MapReduce 思想发展出的分布式流计算平台,如 Apache Spark Streaming、Apache Flink 等,再到如今的第三代云原生流处理系统,如 RisingWave。这一发展标志着流处理技术的普及和简化,已成为众多行业中不可或缺的关键技术。

2024-06-03 21:17:47 42

原创 2024年05月数据月报

2024年05月数据月报,为您准备了阿里、字节、百度等大厂150+篇实践案例

2024-06-02 16:37:15 1737

原创 PostgresSQL 实战:使用 Docker Compose 部署 PostgreSQL

在众多的数据库管理系统中,PostgreSQL(通常简称为Postgres)以其先进的特性、卓越的稳定性、丰富的数据类型及其开源性质而脱颖而出。作为一个对象关系数据库,Postgres不仅提供了传统的表格数据库所具备的功能,还在此基础上加入了对复杂数据结构的支持,比如JSON、地理空间数据等。Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。

2024-06-02 13:09:10 1549

原创 Hadoop 高分笔记

Hadoop 实战笔记

2024-05-31 17:26:31 259

转载 算法在 58 画像平台建设中的应用

用户画像平台是企业应用大数据的根基,精准营销、精细化运营和个性化推荐都离不开用户画像的建设。精准地刻画用户行为、兴趣以及需求尤为重要。本文将探讨算法在 58 用户画像平台建设中的作用,包括画像标签体系的建设,个性化推荐、精细化运营等业务应用。

2024-05-31 13:16:10 25

原创 ZooKeeper 实战:如何使用 Watcher

例如针对 NodeDataChanged 事件,ZooKeeper 的 Watcher 只会通知客户端指定数据节点的数据内容发生了变更,而对于原始数据以及变更后的新数据都无法从这个事件中直接获取到,而是需要客户端主要重新去获取数据——这也是 ZooKeeper 的 Watcher 机制的一个非常重要的特性。客户端Watcher回调的过程是一个串行同步的过程,这为我们保证了顺序,同时,需要开发人员注意的一点是,千万不要因为一个Watcher的处理逻辑影响了整个客户端的Watcher回调。

2024-05-29 07:58:19 878

原创 Hive 2.3.4 does not implement the requested interface org.roaringbitmap.BitmapDataProvider

错误信息提示 `org.roaringbitmap.RoaringBitmap` 没有实现所需的 `org.roaringbitmap.BitmapDataProvider` 接口

2024-05-22 07:45:03 40

原创 MacOS 如何激活 Idea

仅供 Idea 学习之用

2024-05-19 22:57:24 1756

原创 ClickHouse 实战:位图 Bitmap 函数

ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在处理大规模数据分析时,它提供了一个高性能的解决方案。ClickHouse 提供了一系列用于位图索引和计算的函数,这些功能特别适用于处理大量的分布式聚合。位图通常用于高效地表示一组元素的存在情况,例如,记录用户的行为或者在集合运算中快速确定唯一值等场景。

2024-05-19 17:35:03 735

Java 1.7 中文帮助文档

Java 1.7 中文帮助文档.

2015-12-27

2015 搜狗校园招聘研发类笔试题

2015 搜狗校园招聘研发类笔试题

2015-12-22

Android应用开发揭秘

国内第一本基于Android 2.0的经典著作,5大专业社区联袂推荐,权威性毋庸置疑! 本书内容全面,不仅详细讲解了Android框架、Android组件、用户界面开发、游戏开发、数据存储、多媒体开发和网络开发等基础知识,而且还深入阐述了传感器、语音识别、桌面组件开发、Android游戏引擎设计、Android应用优化、OpenGL等高级知识,最重要的是还全面介绍了如何利用原生的C/C++(NDK)和Python、Lua等脚本语言(Android Scripting Environment)来开发Android应用;本书实战性强,书中的每个知识点都有配精心设计的示例,尤为值得一提的是,它还以迭代的方式重现了各种常用的Android应用和经典Android游戏的开发全过程,既可以以它们为范例进行实战演练,又可以将它们直接应用到实际开发中去。

2015-12-17

Android开发秘籍

作为google 开发的全新开源手机平台,android 发展如火如荼。本书通过大量代码秘诀全面详尽地讲述了android 开发技术。从activity 和intent 基础知识开始,到线程、服务、broadcast receiver 以及alert 警告框,再到用户界面布局、界面事件、多媒体技术、硬件接口、网络通信、数据存储方法、基于位置的服务、android 高级开发技术和调试,书中贯穿了经android 设备或者模拟器测试的可用范例,将功能丰富、结构复杂的android 应用程序清晰完美地展现给开发人员。 对于那些有志于android 应用开发的人员来说,本书是难得的参考读物。

2015-12-17

Android开发精要

如何才能写出贴近Android设计理念、能够更加高效和可靠运行的Android应用?通过Android的源代码去了解其底层实现细节是最重要的方法之一!然而,Android系统太过于庞大,源代码实现复杂,学习的技术门槛和时间成本都很高。 有没有一种方法既能帮助开发者深入理解Android应用开发,又能不被底层大量的实现细节所羁绊,迅速掌握编写高质量Android应用所需的知识?本书针对这个问题给出了完美的答案!它从Android繁杂的源代码中抽取出了Android开发的“精华”和“要点”,剥离了大量琐碎的底层实现细节,进行了高度概括和总结,不仅能帮助开发者迅速地从宏观上理解整个Android系统的设计理念,而且能帮助开发者迅速地从微观上掌握核心知识点的原理,从而编写出高质量的Android应用。[1] 本书共13章,在逻辑上分为4个部分。第一部分(1~2章):第1章系统介绍了Android的系统架构、核心模块和设计思想,旨在让读者真正理解它的设计理念;第2章讲解了Android源代码的获取、编译、阅读和编辑的方法。第二部分(3~6章):第3章深入阐述了Android组件机制的设计理念和重要特征,并详细介绍了4大组件的方法和原理;第4章讲解了Intent对象和Android的意图机制,阐明了Android是如何将来自不同应用、不同进程的组件整合在一起的;第5章解析了Android中各个组件的生命周期,包括组件的进程模型和线程模型;第6章从开发的角度详细阐述了组件间数据传输的解决方案,以及它们的优缺点和适用场景。第三部分(7~8章):第7章深入讲解了Android的控件框架,结合实际项目对重要控件的实现和使用逐一进行了分析,还包含Android 4.0界面开发的实践“精华”;第8章分析了Android的资源体系,剖析了Android底层对资源的处理。第四部分(9~13章):第9章讲解了Android的数据存储结构,以及不同数据存储模式的使用要点;第10章分析了Android的各种网络连接方式,涵盖NFC和基于WiFi的P2P连接等内容;第11章讲解了Android的定位服务、地址服务和地图服务的框架实现;第12章仔细分析了Android各种多媒体功能的实现机制;第13章对Android中比较有特色的一些模块的实现细节进行了分析。

2015-12-17

Android技术内幕.系统卷

《Android技术内幕:系统卷》是国内首本系统对Android的源代码进行深入分析的著作。全书将Android系统从构架上依次分为应用层、应用框架层、系统运行库层、硬件抽象层和Linux内核层等5个层次,旨在通过对Android系统源代码的全面分析来帮助开发者加深对Android系统架构设计和实现原理的认识,从而帮助他们解决开发中遇到的更加复杂的问题。《Android技术内幕:系统卷》分为两卷,系统卷主要分析了Linux内核层、硬件抽象层和系统运行库层的各个模块的底层原理和实现细节;应用卷主要分析了应用层和应用框架层的各个模块的底层原理和实现细节。 具体而言,系统卷第1章首先从宏观上介绍了Android系统的架构以及各个层次之间的关系,然后介绍了如何获取Android源代码并搭建Android源代码开发环境和阅读环境的方法;第2章有针对性地剖析了Android的内核机制和结构,以及Android对Linux内核的改动和增强;第3章分析了Binder的架构和工作机制,以及Binder驱动的实现原理;第4章分析了Android电源管理模块的机制与实现;第5章全面地剖析了Android硬件设备驱动(显示、视频、音频、MTD、Event、蓝牙、WLAN等)的工作原理和实现,掌握这部分内容即可修改和编写基于Android的设备驱动程序;第6章深刻阐述了Android原生库的原理及实现,涉及系统C库、功能库、扩展库和原生的Server等重要内容;第7章系统地讲解了硬件抽象层的原理与实现,掌握这部分内容即可编写适合特定硬件设备驱动的抽象层接口;第8章和第9章是对系统运行库层的分析,主要讲解了Dalvik虚拟机的架构、原理与实现,以及Android的核心库相关的知识,掌握这部分内容即可完成对Android运行库的移植和修改。

2015-12-17

Android高级编程

《Android高级编程》首先简要介绍Android软件栈,接着陈述为手机创建稳定可靠、赏心悦目的应用程序的基本原理。通过学习,您可以打下牢固的理论根基,了解使用当前Android 1.0 SDK编写定制移动程序所需的知识,还能灵活快捷地运用未来的增强功能构建最前沿的解决方案。 Android提供一个开放的开发环境,为针对移动设备编写创新应用程序带来了激动人心的新机遇。作为使用AndroidSDK构建这些应用程序的实用指南书籍,《Android高级编程》从始至终穿插了一系列示例项目,每个项目都引入Android的新功能和新技术,以助您达到最圆满的学习效果。书中介绍Android的所有基本功能,并通过简明扼要的示例引导您使用高级功能。

2015-12-17

2015 腾讯校园招聘技术类研发笔试题

2015 腾讯校园招聘技术类研发笔试题

2015-12-17

2015 小米校园招聘笔试题

2015 小米校园招聘笔试题

2015-12-17

2015 新浪微博校园招聘笔试题

2015 新浪微博校园招聘笔试题

2015-12-17

2015 中体彩测试工程师笔试题

2015 中体彩测试工程师笔试题

2015-12-17

2016 恒生电子校园招聘笔试题

2016 恒生电子校园招聘笔试题

2015-12-17

JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发

《轻量级Java EE企业应用实战:Struts 2+Spring 3+Hibernate整合开发》是2008年电子工业出版社出版的图书,作者是李刚。《轻量级JavaEE企业应用实战》一书于2008年由电子工业出版社出版发行,该书是《轻量级J2EE企业应用实战》的第二版,同时还融合了《整合Struts+Hibernate+Spring应用开发详解》理论部分。实际上,该书凝结了前两本书的精华部分。该书介绍了Java EE领域的三个开源框架:Struts 2、Spring和Hibernate。其中Struts 2升级到2.1.2,Spring升级到2.5.5,Hibernate升级到3.2.6。该书保留《轻量级J2EE企业应用实战》里关于Tomcat、 Jetty的介绍,新增了关于Ant、CVS的内容。

2015-12-17

Mahout算法解析与案例实战

本书是一本经典的Mahout著作,原理与实战并重。不仅全面分析了Mahout算法库中不同模块中的各个算法的原理及其Mahout实现流程,而且每个算法都辅之以实战案例。此外,还包括4个系统级案例,实战性非常强。全书共11章分为三个部分:第一部分为基础篇(第1~2章),首先介绍了Mahout的应用背景、Mahout算法库收录的算法、Mahout的应用实例,以及开发环境的搭建;第二部分为算法篇(第3~7章),分析了Mahout算法库中不同模块的各个算法的原理以及Mahout实现流程,同时在每章书末含有每个算法的实战,让读者可以自己运行程序,感受程序运行的各个流程;第三部分为实战篇(第8~11章),通过对4个不同系统案例的分析讲解,让读者了解一个完整的云平台系统的各个流程,从需求到系统框架到系统功能再到功能开发。

2015-12-16

LINUX内核设计与实现

《Linux内核设计与实现(原书第3版)》主要内容包括:进程管理、进程调度、时间管理和定时器、系统调用接口、内存寻址、内存管理和页缓存、VFS、内核同步以及调试技术等。同时《Linux内核设计与实现(原书第3版)》也涵盖了Linux 2.6内核中颇具特色的内容,包括CFS调度程序、抢占式内核、块I/O层以及I/O调度程序等。《Linux内核设计与实现(原书第3版)》采用理论与实践相结合的路线,能够带领读者快速走进Linux内核世界,真正开发内核代码。《Linux内核设计与实现(原书第3版)》适合作为高等院校操作系统课程的教材或参考书,也可供相关技术人员参考。

2015-12-14

重构-改善即有代码的设计

本书清晰揭示了重构的过程,解释了重构的原理和最佳实践方式,并给出了何时以及何地应该开始挖掘代码以求改善。书中给出了70多个可行的重构,每个重构都介绍了一种经过验证的代码变换手法的动机和技术。本书提出的重构准则将帮助你一次一小步地修改你的代码,从而减少了开发过程中的风险。

2015-12-14

算法艺术和信息学竞赛

本书即为信息学界著名的两本“黑书”之一(另一本为吴文虎、王建德编著的实用算法的分析与程序设计,这本书现在已经在市场是接近绝版,但是在网上能找到电子书·如果想找到替代品的话可以找另外一本由吴文虎教授以及王建德先生编著的黑书《新编实用算法的分析与程序设计》,由北京邮电出版社2008年出版,此书与原版表面内容相差较大,但实质没有太大差别)。

2015-12-14

Eclipse Maven插件

eclipse-maven插件。官网并不提供 maven 插件的离线安装包,在网上搜一下maven 的离线安装即可。

2015-11-30

apache-mahout-distribution-0.11.1-src

Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。

2015-11-30

log4j-1.2.17

Apache log4j 1.2.17 is distributed under the Apache License, version 2.0. The link in the Mirrors column should display a list of available mirrors with a default selection based on your inferred location. If you do not see that page, try a different browser. The checksum and signature are links to the originals on the main distribution server.

2015-11-30

apache-maven-3.3.9-bin

Apache Maven 3.3.9 is the latest release and recommended version for all users. The currently selected download mirror is http://www.us.apache.org/dist/. If you encounter a problem with this mirror, please select another mirror. If all mirrors are failing, there are backup mirrors (at the end of the mirrors list) that should be available. You may also consult the complete list of mirrors.

2015-11-30

Better bitmap performance with Roaring bitmaps

Better bitmap performance with Roaring bitmaps

2023-03-06

Encoded Bitmap Indexing for Data Warehouses

Encoded Bitmap Indexing for Data Warehouses

2023-03-04

数仓规范化-菜鸟数据模型管理实践

数仓规范化—菜鸟数据模型管理实践 PDF

2023-02-19

美团外卖离线数仓建设实践

美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对痛点做的一系列优化解决方案

2023-02-19

Redis 入门指南

《Redis入门指南》是2013年人民邮电出版社出版的图书,作者是李子骅。该书是一本Redis的入门指导书籍,以通俗易懂的方式介绍了Redis基础与实践方面的知识,包括历史与特性、在开发和生产环境中部署运行Redis、数据类型与命令、使用Redis实现队列、事务、复制、管道、持久化、优化Redis存储空间等内容,并采用任务驱动的方式介绍了PHP、Ruby、Python和Node.js这4种语言的Redis客户端库的使用方法。

2017-06-02

Apache Spark源码剖析

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

2016-11-12

Shell脚本学习指南

《Shell脚本学习指南》将告诉你这些有关UNIX主流工具的知识。除此之外,《Shell脚本学习指南》还会帮助你解决UNIX命令与标准的差异。 作者熟知UNIx程序使用的基本技巧与操作上细微的差异。他们不但会告诉你如何构建一个绝佳的脚本,还会教你如何避免落入让你功亏一篑的陷阱。有了《Shell脚本学习指南》,你可以节省很多力气。 我们要学习的不只是如何写出有用的Shell脚本,你还得了解如何迅速、确实地定制Shell,让程序的可移植性达到最佳状态,脱离对特定系统的依赖。这些技巧对任何操作与维护UNIX及Linux系统的人而言都很重要。《Shell脚本学习指南》所提供的知识,将可以帮助你掌握基本的Shell脚本编写技巧。Shell脚本编程(scripting)的技巧永远不会过时:它们可以让UNIX充分发挥其真实的潜能。对uNIx的用户与系统管理者而言

2016-05-28

dubbo-admin-2.5.4

dubbo-admin

2016-04-26

AspectJ所需Jar包

AspectJ 1.8.8 版本 更新时间 2016/02/12

2016-02-12

精通Spring

本书深入剖析了当前流行的轻量级开发框架Spring技术。本书总共分成3部分。第一部分,重点阐述Spring的架构。这部分内容循序渐进带领开发者进入Spring中。主要在于阐述Spring IoC和Spring AOP。第二部分,重点阐述Spring的使用。这部分内容从简化Java/J2EE的角度出发,从J2EE平台各个技术层面分析、并给出大量的研究实例,对Spring提供的API进行阐述。主要在于阐述Spring对J2EE API提供的服务抽象。第三部分,重点阐述Spring高级专题。这部分内容重点对视图技术进行了研究,因为对于开发Web应用而言,前端界面的开发往往工作量很大。因此,使用合理的视图技术开发Web应用对于项目的成功与否很关键。

2016-02-07

Java Persistence with MyBatis 3

MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis 。2013年11月迁移到Github。

2016-02-06

Java Persistence with MyBatis 3(中文版)

Java Persistence with MyBatis 3(中文版)

2016-02-06

Spring-Jar-4.2.4

Spring应用开发使用的全部jar包: Spring-core.jar Spring-context.jar Spring-expression.jar Spring-beans.jar commons-logging.jar

2016-01-28

mysql-connector-java-5.1.38

mysql驱动jar包 峰

2016-01-21

log4j所需jar包

Log4j是Apache的一个开源项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台、文件、GUI组件,甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等;我们也可以控制每一条日志的输出格式;通过定义每一条日志信息的级别,我们能够更加细致地控制日志的生成过程。最令人感兴趣的就是,这些可以通过一个配置文件来灵活地进行配置,而不需要修改应用的代码。

2016-01-20

jdom-2.0.6.zip

JDOM是一种使用 XML(标准通用标记语言下的一个子集) 的独特 Java 工具包,。它的设计包含 Java 语言的语法乃至语义。

2016-01-03

Hadoop实战中文版

为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。  《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

2015-12-25

大规模分布式系统架构与设计实战

《大规模分布式系统架构与设计实战》是作者从程序员到首席架构师十多年职业生涯的实战经验总结,系统讲解构建人规模分布式系统的核心技术与实现方法,包含作者开源的Fourinone系统的设计与实现过程,手把手教你掌握分布式技术。通过学习这个系统的实现方法与相关的理论,读者可快速掌握分布式系统的理论并设计自己的分布式系统。 《大规模分布式系统架构与设计实战》从分布式计算的基本概念开始,解剖了众多流行概念的本质,深入讲解分布式系统的基本原理与实现方式。包括master—slave结构、消息中枢模式、网状直接交互模式、并行结合串行模式等,以及Fourinone系统的架构、实现分布式功能的示例。接下来详细介绍分布式协调、分布式缓存、消息队列、分布式文件系统、分布式作业调度平台的设计与实现方法,不仅包括详细的架构原理、算法,还给出了实现步骤、核心API、实现代码。随书附带的光盘包括书中示例代码以及Fourinone系统源代码。

2015-12-25

大型网站技术核心原理与案例分析

本书通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读者呈现一幅包括技术选型、架构设计、性能优化、Web 安全、系统发布、运维监控等在内的大型网站开发全景视图。 本书不仅适用于指导网站工程师、架构师进行网站技术架构设计,也可用于指导产品经理、项目经理、测试运维人员等了解网站技术架构的基础概念;还可供包括企业系统开发人员在内的各类软件开发从业人员借鉴,了解大型网站的解决方案和开发理念。

2015-12-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除