2020年12月_王清欢Randy

12月 05月 04月 02月

原创 BigTable

BigTableBigTable设计思想Bigtable 依托于 Google 的 GFS、Chubby 及 SSTable 而诞生，用于解决 Google 内部不同产品在对数据存储的容量和响应时延需求的差异化，力求在确保能够容纳大量数据的同时减少数据的查询耗时。为此，作为分布式结构化数据存储系统的BigTable有以下设计目标： BigTable是用于处理海量数据的，通常是分布在数千台普通服务器上的PB级数据。 BigTable要求能够提供灵活的、高性能的数据存储方案，因为不同的产

2020-12-28 21:45:58 13716

原创基于深度学习的日志数据异常检测

基于日志数据的异常检测数据对象智能运维(AIOps)是通过机器学习等算法分析来自于多种运维工具和设备的大规模数据。智能运维的分析数据对象多源运维数据包括系统运行时数据和历史记录数据，历史记录数据主要包含表单和系统更新文档等。与历史记录数据相比，系统运行时数据能够反映系统的动态特征及系统发生故障时的上下文信息，对未知故障具有更好的探测和表达能力。系统运行时数据主要包含监控数据和日志数据，监控数据记录的是指系统运行状态下的资源占用情况，如中央处理器使用率、内存使用率、网络流量、进程数目以及进程资源使

2020-12-27 12:00:12 22647 15

原创 Google File System

Google File SystemGFS设计思想 GFS的设计目标是设计一个可伸缩、高可用、高可靠的分布式文件系统，为了达到这一设计目标，其设计思想包含以下内容：为控制成本该系统是构建在成百上千台普通、廉价的设备组装成的存储集群，同时要被相当数量的客户机访问。因此组件失效被视作是常态而不是意外事件，即任何时间都可能有某些组件无法工作或无法从目前的失效状态中恢复。该系统存储的文件可能非常巨大（GB级的文件非常普遍），每个文件又通常都包含许多应用程序对象，所以经常需要处理由数亿个对象构成且快速增长

2020-12-20 13:57:01 8602

PyFlink 有状态流处理 + SkLearn 实现在线机器学习

本实例使用 PyFlink + Scikit-Learn 基于kafka输入的实时手写体数据，在线训练一个手写体识别机器学习模型，以及提供实时的手写体识别服务；并实现对模型训练过程的实时监控。

2022-02-21

PyFlink 有状态流处理实现实时排行榜

本实例使用 Flink 的有状态流处理和滑动窗口，实现实时点击量排行榜。该实例统计过去 1 分钟内，点击量最高的男女用户各 10 名及其具体的点击数，同时每隔 1 秒（实时）更新统计结果，等到排行榜数据并将结果同步到 kafka 中。

2022-02-21

PyFlink 流处理 MySQL CDC方式实时备份

2022-02-21

PyFlink UDF 实时日志监控告警实现

本实例通过 Flink 结合 UDF 对系统上报的日志进行实时解析并生成告警，搭建实时监控告警系统

2022-02-21

PyFlink 词频统计完整代码

该实例的处理过程是通过 Flink 对文件存储系统里的数据进行离线批处理，统计指定文件下的单词数，并将统计结果存储到其他文件下。该实例业务实现过程如下： - 首先使用 `filesystem` 作为连接器，按照指定的 `csv` 格式来批量地读取指定路径的文件或文件夹，以此创建源数据表。 - 然后，在 Flink 中执行批处理实例逻辑，完成批处理任务。 - 最后，使用 `filesystem` 连接器，将处理后结果写入目标文件或文件夹内，构建结果表。

2022-02-21