西土城计划-CSDN博客

原创开源众包的坑，真实记录

因为比较忙就没再折腾这事，过了一个月登录上去再看看，发现托管的2000元没了！结果：网页上的400-8982-008号码，拨打后提示无此业务号码！最近有个小项目打算找人做，到开源众包上发布了个悬赏任务。然后托管了2000元钱，因为需求改动想关闭悬赏重新发。开源众包，oschina，大坑啊！然后依旧是没法联系上这个平台！在线客服一直没人回复！向邮箱发邮件也没回应！

2023-08-29 10:16:38 4916 11

原创数据湖和Apache Iceberg，Apache Hudi，Delta Lake

数据湖这个词目前已经流行开来，逐步被数据相关的从业者接受，可能还有很多人不太清楚它和Hadoop，Hive，Spark这些大数据系统的区别，简单说数据湖是个业务概念，主要是为了区别传统数仓这个概念的。提到数据湖，很多人会和Hudi，Iceberg, Delta Lake三个词联系起来，甚至觉得不用到上面三个技术的系统不是数据湖。这是不对的，数据湖是个业务概念，Hudi、Iceberg这些只是实现技术之一，而且仅用到Hudi、IceBerg或Delta Lake无法实现数据湖.........

2022-06-17 15:56:10 962

原创大数据元数据管理 apache atlas

随着公司数据量的增多，Hive表已经有近千个，为了方便使用和管理，这时候需要一个“元数据管理系统”。经过搜索，目前开源的Apache Atlas比较符合要求，准备搭建起来试试网上有很多入门的文章，官网也有介绍，但是…花了快一天的时间竟然没运行起来！编译耗时很久，报错…依赖Zookeeper，Hbase，Solr…只需要管理下元数据要这么复杂吗？看了下源码，主项目下面有一堆子项目，子项目里还有子项目…应该有个精简版，能快速上手，然后根据需要逐步增加复杂的功能

2022-05-20 11:09:13 542 2

原创 Java：字符串(String)类型转成整型(int)的方法

在 Java 中，我们可以使用 Integer.parseInt() 或 Integer.valueOf() 将 String 转换为 int。Integer.parseInt() – 返回原始整数。Integer.valueOf() – 返回一个 Integer 对象。对于字符串中的位置或负数，转换是相同的 String number = "7"; // result = 7 int result = Integer.parseInt(numbe...

2021-12-19 19:52:19 70185 1

原创 Java：如何获取当前时间

本文介绍如何从新的 Java 8 java.time.* 中获取当前日期时间，如 Localdate、LocalTime、LocalDateTime、ZonedDateTime、Instant 以及旧的日期时间 API，如 Date 和 Calendar。新旧API：对于新的 Java 8 的java.time.* API，我们可以使用 .now() 获取当前日期时间并使用 DateTimeFormatter 对其进行格式化。对于传统的日期时间 API，我们可以使用 new Date() 和 C.

2021-12-17 20:17:45 8700

原创词义辨析：BI, 数据仓库，数据中台，数据湖，Hadoop

这是一个不断出现新概念的时代，和大数据相关的上面这些词含义有什么区别呢？本人根据多年的大数据领域工作经验来说一下自己的理解。企业对于数据的使用由来已久，数据量小的时候通过人工+类似Excel的软件就能搞定，随着公司规模扩大和数据量增多，并且随着互联网这种对数据依赖性强的企业出现，对数据加工使用的难度就大大增加了。所以产生了很多新概念、新技术，其中就有BI, 数据仓库，数据中台，数据湖，Hadoop等。这些词产生的时间、背景、目的等各不相同，但是数据处理和使用的本质是不变的...

2021-12-14 09:19:12 1671

原创 Spark Streaming：通过Dstreams 或 DataFrames做流数据处理，结果写入ClickHouse或Hive表

Apache Spark 当前最流行的大数据处理框架之一。最初它是作为替代 Hadoop 的 MapReduce 批处理框架而创建的，但现在它也支持 SQL、机器学习和流处理。今天我们重点看看 Spark Streaming，展示常用流处理的方式。流数据处理常出现在大数据用例中，用于连续生成动态数据的场景。在大多数情况下，数据以近似实时的方式处理，一次一条记录，处理结果用于提供及时的报警、呈现在仪表板上或者提供给机器学习模型，让我们基于数据的变化快速做出反应。Dstre...

2021-12-11 16:23:56 3335

原创 Hadoop, MapReduce,Hive, HBase, Storm, Spark, Flink, Kylin等大数据框架的角色和关系

各种大数据框架近几年发展得如火如荼，比如Hadoop, MapReduce,Hive, Hbase, Storm, Spark, Flink, Kylin 等，各个框架的角色是怎么样的？如何配合起来使用？本文将从时间顺序上逐个说明。首先要介绍一下Hadoop，现在Hadoop分为3部分，分别是HDFS，Yarn和Mrv2近几年大数据潮流的推进，是需求和技术相互促进的结果，对大数据需求...

2019-01-17 14:38:17 10794 1

原创 Flink的window机制

Window在流式计算中很重要，因为”流”是一个无终点的持续输入，所以通过window机制来分块，进行聚合等各种处理Keyed vs Non-Keyed WindowsNon-key window是在整个流上进行分块，没法并行处理Window Assigners分为4种窗口类型，分别是：Tumbling Windows；Sliding Windows；Session Wind...

2018-12-26 09:43:27 313

原创 Flink的可靠性保证 – CheckPoint机制

Flink支持Exactly-Once级别的准确行，这是一个很高的要求，一般的高吞吐量系统只支持At-least-Once级别的。Lightweight Asynchronous Snapshots for Distributed Dataflows 这篇论文是Checkpointing 机制的理论基础，这个机制的思想来源于K.MANI CHANDY和LESLIE LAMPORT 发表的一篇分布式...

2018-12-25 16:01:33 904

原创 Flink的可靠性保证 - 状态存储

一为什么需要State存储与批计算相比，State是流计算特有的，批计算的failover机制，是失败后重新计算；流计算在大多数场景下是增量计算，数据逐条处理，每次计算是在上一次计算结果之上进行处理的，这就要求对上一次的计算结果进行存储，当因为机器，网络，脏数据等原因导致程序错误的时候，可以重启Job进行state恢复。Flink就是基于state存储，通过CheckPoint机制来保证数据...

2018-12-25 10:58:28 1196

原创 Flink流式计算里的时间和watermark机制

一流计算对“批计算”的优势： “流计算”是相对于“批计算”来的，MapReduce，Spark底层的计算方式是目前主流的“批计算”实现方式，很多公司在使用这种方式做大数据处理。但是越来越多的公司目前开始关注“流计算”，主要有以下一些原因：1 对处理时间的要求。随着技术的进步，用户对“延迟”的忍受能力越来越弱，能更及时发现问题、解决问题，能提升用户体验。2 在大数据分析领域，数据...

2018-12-24 16:45:34 800

原创 Storm常用计算模式

Apache Storm是目前最流行的实时计算框架之一，基于 streams, spouts, bolts, and topologies这些基本组件，可以组合出一些计算模式，每个模式对应解决一类现实中的问题。下面介绍7种计算模式，并给出代码示例，希望对读者有所帮助：模式1： JOINJoin一般是指基于摸个共同的属性，把2类内容

2017-03-02 17:47:36 802

原创分布式实时系统STORM的运行时模型

一 storm的静态模型 storm的静态模型比较好理解，弄清楚Topology,Spout,Bolt,Stream的含义大概就明白了，不清楚的可以看看strom文档中的Concepts部分。但是storm是个并行执行的框架，运行状态下的模型是怎么样的呢？二 storm运行时基本模型 storm运行是的模型，要弄清楚worker，

2017-03-02 13:36:21 1257

原创 SVM(支持向量机)算法原理和实际应用

的说法是1 对svm有个直观的了解，最好的解释是下面这个http://www.zhihu.com/question/21094489https://www.reddit.com/r/MachineLearning/comments/15zrpp/please_explain_support_vector_machines_svm_like_i/

2016-12-23 15:09:35 14396