smileyboy2009-CSDN博客

原创未来的AI手机是什么样子的

对服务提供商而言，接口成为核心资产。同时，本地大模型的算力消耗、接口调用的网络流量，都将成为新的收费点 —— 用户可能购买 “月度 Token 套餐”，或按单次调用付费，彻底摆脱传统 App 的订阅陷阱。大模型通过多模态感知能力，深度理解用户需求的本质 —— 当你说 “找一部适合全家看的喜剧电影”，AI 不仅识别关键词，更会关联家庭成员年龄、观影历史、当前时段等上下文，生成 “家庭喜剧 + 无暴力元素 + 片长 90 分钟内” 的精准需求标签，这正是 MoMA 引擎强调的 “意图理解与规划” 能力的延伸。

2025-11-20 12:19:41 443

原创国内公司把数据湖做成了数据库

数据湖，是所有团队参与的。你可以上传你部门的数据，但是别人是看不到的，如果数仓需要拿你的数据，需要你给一个路径，或者文件地址。你问他数据湖有那些特点，他会说，CDC，spark，flink，流批一体，三剑客（iecberg,hudi和dealta，）。当然里面也有iceberg表，但是它只是数据文件的一种，而给你的只是文件目录，里面记录Parquet 格式的文件，但是你可以从元数据看到，表的信息。最后总结：1.数据湖的数据接入，应该多样性，csv，cdc，数据文件，http等等，都应该可以对接。

2025-06-28 16:23:55 462

原创感知层+决策层+执行层

└─────┴─────┴──┘ │ 长期记忆 │ └─────┴─────┘。│视觉 │语音 │触│ │ 知识融合 │ │机械臂│智能│。│模型 │模型 │觉│ →特征信号→ │ 逻辑推理 │ →控制指令→ │ │家居│。摄像头小模型检测行人（98%准确率，15ms）人类类比 AI对应。

2025-06-11 13:24:50 835

原创大模型与小模型的关系：像大脑、舌头和手的协作

大模型和小模型的协作就像人类的大脑、舌头和手一样，它们各自有不同的功能和角色，互相配合才能完成复杂任务。

2025-06-11 13:07:53 404

原创 Ambari集成Apache Kyuubi实践

集成Apache Kyuubi到HDP中，主要涉及Ambari的二次开发。标签内添加kyuubi相关配置项，包括kyuubi-defaults、kyuubi-env、kyuubi-log4j-properties、ranger-spark-audit、ranger-spark-security。该目录可存放，存放的是组件属性的配置信息，和配置目录下的配置对应，这个关系是如果我们在Ambari页面修改了属性信息，则修改信息会自动填充该目录下的文件的属性，所以，这个目录下的属性是最新的，并且是服务要调用。

2024-06-07 14:16:27 1681

原创 ambari 自定义监控服务

ambari 是大数据平台的管理，部署，运维，监控，配置管控平台，可以实现大数据的自动安装，部署，调试，配置，监控工作，针对ambari 的监控组件聊一下。ambari 中有单独的组件Metrics，主要是用来进行收集，存储，规则处理，监控数据服务。psutil：一个跨平台的系统信息采集 Python 模块。metric_collector：周期性（默认为5s）采集系统信息，并存储到 ApplicationMetricMap 当中。

2024-06-07 13:47:16 1169

原创 kyuubi/spark3的catalog 多个数据源配置

在使用kyuubi 的时候，有多个集群，老集群上是hive2,新集群hive3 ,想通过一个网关访问多个集群，或者通过jdbc访问mysql，oracle的数据，这样不用来回数据导入导出。spark 支持跨库访问数据，在spark 中提供两种方式：1.建临时视图，通过临时视图访问外部库。2 建catalog ，通过多个catalog访问。

2024-05-23 12:10:16 1510

原创 apache atlas 如何自定义hook

就是你连接的是什么数据库，什么程序，字段，表，视图等这些信息需要进行注册，毕竟不同的库，这些信息不一样，比如hive 和hbase 的属性肯定不一样。我们了解钩子函数先了解，数据源，所谓钩子函数，其实是需要源系统配合，这个其实就是源系统的一个监听机制，就是在客户端（写sql）——执行端，在中间有个监听程序，可以获取sql解析过程。目前市场上开源的元数据管理工具有Atlas， Datahub， Openmetadata等，你要说二次开发，谁最好，如果是java 人月，还是 Atlas ，灵活，简单。

2024-05-08 16:52:34 914

原创 idea开发delta.io数据湖

delta.io是三大数据湖之一，Iceberg 和hudi. 国内人用的比较多，delta国外的大厂用的比较多，主要来源与databrack . 像苹果，adobe，阿里等公司用的是delta.io，相对来说比较成熟一些。通过idea的spark 操作delta.delta 存储用的是minio，没有用hadoop。idea maven 的pom.xml。

2023-12-25 11:33:57 974

原创 iceberg1.4.2 +minio通过spark创建表，插入数据

iceberg 是一种开放的表格式管理，解决大数据数据中结构化，非结构化和半结构化不统一的问题。主要是通过对表的管理实现增删改查，同时支持历史回滚（版本旅行）等操作。下层支持hadoop，s3,对象存储，上层支持hive，spark，flink 等应用。实现在中间把两部分隔离开来，实现一种对接和数据管理的标准。有这个标准，不管是谁建的表，都可以操作和访问。比如我用spark创建表，flink去读取的时候，可以读取到数据。在idea进行pom.xml配置。通过上面的例子，直接复制执行。

2023-12-25 11:21:04 2119

原创 Iceberg1.4.2 java 表管理（DDL和DML）操作

iceberg 通过java 代码实现增删改查，不需要hadoop 相关组件

2023-12-25 11:11:00 1152 1

原创 iceberg1.4.2+spark3.4.2+minio

iceberg，spark，minio

2023-12-21 16:06:10 843

原创 Iceberg java API +minio 开发web catalog

我们现在数据湖产品，开发基本上都是大数据人员操作，能不能java 开发，比如用java web 开发在线创建表，创建分区，在线修改表字段。做数据湖Iceberg的元数据管理呢，因为我们大部分的表修改希望通过应用修改，并查看应用。对java人员，最麻烦就是安装hadoop，hive，现在这个例子，不需要hadoop和hive，对Iceberg数据湖进行表管理开发。接下来将在window上，通过一个demo例子来实现java 版的iceberg开发和应用。下面。

2023-12-19 14:21:09 1282

原创编译apache atals 2.3报错

org.restlet.jee:org.restlet:jar:2.4.3 这个依赖。同时，错误信息中提到了 sun.security.validatorException 和 CertPathValidatorException，这可能是由于 SSL 证书验证失败导致的。具体来说，是关于 org.restlet.jee:org.restlet:jar:2.4.3 这个依赖。atlas依赖 org.restlet.jee，官方仓库中没有，需要提前安装在本地，保证编译过程顺利进行。

2023-12-12 16:09:18 898

原创数据湖（iceberg,hudi,delta）三剑客生产环境选型

iceberg,hudi,delta 生产环境选型

2023-10-27 10:30:58 1321

原创什么是Headless BI

Headless BI是国外比较流行的一个概念，本质是将数据的语义层和应用层进行解耦，希望通过统一语义层的模式实现指标和模型的一处定义、多处使用。其实望能够为分析应用和业务场景提供统一的语言，降低数据服务的开发成本。原来的数据中台和和数据湖是直接提供数据：现在的：中间加了一个API层。

2023-10-25 15:53:54 3417

原创聊一下Data Fabric（数据编织）

当下，数据是企业数字化转型重要驱动因素，而随着业务的发展，企业的数据环境日趋复杂。在更高程度数字化要求下，企业必须使用一种新型的数据结构来应对企业数据资产日益加剧的多样化、分布式、规模、复杂性等问题。因此，数据编织(Data Fabric)应运而生。Gartner认为数据编织是一种跨平台的数据整合方式，它不仅可以集合所有业务用户的信息，还具有灵活且弹性的特点，使得人们可以随时随地使用任何数据。作为一种新兴的数据管理和处理方法，数据编织能够基于网络架构而不是点对点的连接来处理数据。

2023-10-25 15:18:56 1006 1

原创 Flink对接Delta 数据湖

目前Delta支持flink 的的写入和查询Flink/Delta Connector 是一个 JVM 库，用于从 Apache Flink 应用程序读取和写入数据到 Delta 表利用。连接器提供恰好一次的交付保证。DeltaSink。

2023-10-25 14:26:00 526 1

原创 spark 3.5版本发布

此版本引入了更多 Spark Connect 正式发布的方案，例如 Scala 和 Go 客户端、分布式训练和推理支持，以及增强了结构化流式处理的兼容性;引入了新的 PySpark 和 SQL 功能，例如 SQL IDENTIFIER 子句、对 SQL 函数调用的命名参数支持、对 HyperLogLog 近似聚合的 SQL 函数支持以及 Python 用户定义的表函数;在开源社区的重大贡献下，此版本处理了 1,300 多个 Jira 工单。以下功能将在下一个 Spark 主要版本中删除。

2023-10-25 14:10:56 2594 1

原创数据湖Delta Lake 3.0.0发布

数据湖

2023-10-25 13:48:16 430 1

原创 zeppelin+minio+Delta Lake 配置

数据湖

2023-10-17 18:22:01 419

原创下一代工作流-数据管道

工作流，数据管道 dagster ，Prefect

2023-10-05 09:40:05 1285 1

原创 zeppelin 0.10.1 安装spark3和flink 1.14

zeppelin 作为数据湖的交互式分析平台，可以在上面写sql,python,java等多种语音和数据库的交互式分析工具，可以通过一个个片段进行分析，支持片段上下文，支持参数和结果传递，不需要进行IDE进行编程，直接在页面上操作。

2023-10-02 23:17:35 588 1

原创数据湖的分区和模型构建

大数据平台，数据湖，数据湖分层

2023-09-21 16:25:49 400 1

原创通俗易懂介绍数据湖和数仓

通过上图，可以清洗的看到数据湖的作用。那大家会问，数据湖根数仓到底有啥区别，那我们首先要看一下，数据仓库长什么样子。下图是数据仓库的的流程：我们以我们的工厂举例：我们的原材料：各种食材来源。我们采购渠道：统一的采购和过滤，按需采购我们的工厂：先产品设计（模型设计），在根据设计进行加工（ETL过程），行程标准化（数据治理（要质量验证））我们的集市：产品标准的专门店（专业的营业员，专业的介绍，统一的口径）。

2023-08-24 17:05:30 640 1

原创揭露一个Spark连接Hive的bug

spark 读取hive 只能读取表头，不能获取数据。

2022-07-08 00:17:33 563

原创元宇宙终极目标是打造六界

元宇宙终极目标是打造六界

2022-06-06 10:24:42 273 1

原创 spark和flink对比

最近网上和各大公司在对比spark 和flink , 也有一部分人，演讲时不分析代码原理，不根据事实，直接吹嘘flink比spark好，flink 能干掉spark 的话，今天就跟大家从技术，应用和未来发展角度对两个产品进行对比。先说产品特性：1.spark中批处理使用 RDD，流处理使用 DStream，flink中批处理使用 Dataset，流处理使用 DataStreams。目前flink 在做Dataset 和DataStreams 合并，实现统一API 服务，spark底层是基于RDD

2022-04-25 12:01:10 3895 3

原创疫情环境下，远程办公成了趋势

疫情条件下，远程办公成了趋势，有几点可以大家一起分享：1.远程办公可以降低成本，企业不用租高档写字楼，员工不用租房子，减少生活成本，一个在北京2万的元员工，在其他城市买房，除了给房东打工，还要给银行打工，收益-成本，最后根本不剩钱。这就是企业高成本，员工高成本，最后都没有利润。同时也不用为了户口，买房摇号，买车摇号发愁。2.如果员工的工作产生的税务，可以交到当地政府，可以增加当地政府收入，比如...

2020-02-17 12:47:08 1528 4

原创 IP时代，5G，区块链会给你带来哪些改变

ip时代，你将要干嘛，你要何去何从？最近大家都在说北京写字楼空置率在上升，是不是房价真的要下跌了？像马云说的房价如葱？其实不是，是ip时代到来(ip是具有独立知识产权的东西，通俗意义上说，专业人做专业的事，具有专业价值) 。在短视频，5G的到来，ip的就不再分地域限制,大家都可以各回各家,各找各妈。你在老家可以通过短视频做引流，买东西。何必跑到北上广花很高的成本，坐2个小时地铁去工作...

2019-11-26 08:35:31 343 1

原创 Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

在spark 2.4中报ArrayIndexOutOfBoundsException 原因是Spark 2.4.0中引用的paranamer版本是2.7导致问题。在spark-core / spark-sql之前添加以下依赖项为我解决了这个问题。<dependency> <groupId>com.thoughtworks.paranamer</gro...

2018-11-23 13:27:46 1107

原创 hadoop3.0x 后要比spark快10倍！

hadoop3.0x 后要比spark快10倍！

2015-02-04 17:15:08 2078 2

原创大数据Spark实战高手之路职业学习路线图

从零起步，分阶段无任何障碍逐步掌握大数据统一计算平台Spark，从Spark框架编写和开发语言Scala开始，到Spark企业级开发，再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试，一次性彻底掌握Spark，成为云计算大数据时代的幸运儿和弄潮儿，笑傲大数据职场和人生！学习条件1，掌握Scala；2，精通Spark企业及开发；3，精通Spark框架源码实现；4

2014-12-01 15:32:07 990

原创用java 项目链接hbaes 容易出现的错误！

2014-10-21 16:08:37,580 WARN [main] util.NativeCodeLoader (NativeCodeLoader.java:(62)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable2014-10

2014-10-21 16:12:38 876

原创 html5的强大之处

我们所知道的html5的特性：Canvas，From, 本地存储，本地数据库离线应用 webworket, webscoket其实看上去，跟flash比没什么优势，但是更重要的是有太多技术的支持和集成。svg:svg是一种矢量图，在html5没出来之前，它是做为web浏览器的一种图形界面，不过要基于插件 adoble svg view svg 也是一种xml文档格式的元素

2011-12-30 10:14:49 698