自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据与工程工作,AI大模型应用

2007年开始从事互联网开发工作,有赶集、百度知名大厂工作经历:从事数据与工程工作,AI大模型应用

  • 博客(225)
  • 资源 (9)
  • 收藏
  • 关注

原创 LLM 微调:从数据到部署的全流程实践与经验分享

LLM 微调经验分享:从数据到部署的全流程实践指南

2025-07-10 23:00:34 1160

原创 AI 智能体:从辅助工具到自主决策者

AI智能体是一种能自主感知环境、决策并执行行动的智能实体,具备自主性、环境交互和持续优化能力。其核心架构包括感知、决策、执行和反馈模块,形成闭环系统。典型应用场景覆盖日常生活(智能助手、家居)、行业(金融交易、工业、客服)及复杂协作(物流、交通管理),能显著提升效率。未来趋势包括通用智能体发展、人机融合及伦理规范建立。AI智能体正从辅助工具向自主决策者演进,成为连接数字与物理世界的核心枢纽。

2025-07-10 22:41:51 859 2

原创 n8n文本语意识别与问题自动补充工作流的深化及企业级部署

HSET user:{uid}:context 最新记录。Telegram消息。

2025-07-09 22:53:17 877

原创 Dify 文本语意识别与自动补全工作流

Dify平台提供了一套完整的文本语意识别与问题补全解决方案。该方案包含数据预处理、模型训练、意图识别、问题补全和验证反馈五大模块,通过结合规则引擎和生成式模型(如GPT-4)的优势,实现对不完整问题的智能补全。平台支持基于知识库的填充式补全和模式匹配,并提供Python API接口示例,展示如何调用Dify服务。实际应用中建议构建领域知识库、管理多轮对话并收集用户反馈,以持续优化补全效果。该技术可广泛应用于智能客服、搜索建议等场景。

2025-07-09 22:19:36 745

原创 基于DolphinScheduler的离线数据治理平台:架构设计与血缘管理实践

摘要:本文针对PB级数据处理场景的调度系统痛点,提出基于DolphinScheduler的分布式解决方案。通过YAML配置中心实现任务编排自动化,自研工具链提升数据同步性能4倍以上,采用图数据库构建实时血缘图谱,使任务失败率从8.2%降至0.1%。关键技术包括Go模板动态编译、SQL拦截解析血缘、双跑校验迁移方案等,最终实现日均延迟任务减少94%,血缘维护耗时降低95%。系统支持StarRocks等异构数据源,提供秒级影响分析和故障追踪能力。

2025-07-09 09:23:45 838

原创 N8N与Dify:自动化与AI的完美搭配

n8n和Dify是两款互补的开源工具:n8n专注工作流自动化,通过可视化编排连接400+系统实现数据同步、定时任务等业务自动化;Dify是低代码AI开发平台,支持200+大模型,快速构建智能客服、内容生成等AI应用。两者可通过API协同,如n8n触发Dify生成报告并自动分发,形成"AI+自动化"完整解决方案。n8n解决系统连接问题,Dify赋予应用智能,按需选择或组合使用可显著提升效率。

2025-07-08 22:05:39 565

原创 基于Flink 1.20、StarRocks与TiCDC构建高效数据处理链路教程

摘要:本文介绍了如何构建基于Flink 1.20、StarRocks和TiCDC的高效数据处理链路,实现MySQL数据实时同步与分析。文章详细讲解了Flink 1.20的流批一体化特性、StarRocks的高性能MPP架构以及TiCDC的数据变更捕获机制。通过环境配置指南,包括Flink安装、StarRocks部署和MySQL数据源设置,以及精心设计的表结构(含主键约束、哈希分布等优化),构建了一个从MySQL经Flink处理到StarRocks的完整数据管道。该方案兼顾数据处理效率与系统稳定性,适用于实时

2025-07-07 22:21:09 855 1

原创 基于大模型建设的AI智能报表系统

摘要:针对传统企业数据平台响应慢、灵活性差等痛点,本系统通过LLM实现自然语言到结构化查询的智能转换,显著提升数据分析效率。系统采用StarRocks引擎和GPT-4o模型,突破语义歧义消除、动态指标计算等技术难点,使复杂查询转化率达91.2%,响应时间小于1秒。目前已覆盖广告分析、高管决策等场景,减少50%报表开发需求,并将临时分析响应时间提升至分钟级。未来将拓展多模态输入、智能预警等功能,持续优化企业数据服务能力。

2025-07-05 22:45:07 499

原创 广告业务动态查询架构设计:从数据建模到可视化呈现

摘要:本文介绍了一个面向广告业务的动态查询系统,通过分层数据模型设计和实时计算架构,实现了多维数据的秒级分析。系统采用StarRocks作为核心存储引擎,结合Flink实时处理和Hive离线计算,支持从账户到创意层级的全维度查询。通过动态SQL生成引擎和可视化组件,业务人员可灵活组合维度指标,快速获取图表或Excel报表。系统优化了索引、缓存和预聚合策略,95%查询响应控制在500ms内,日均支持10亿级数据处理。该方案有效解决了数字营销中数据分析复杂、实时性要求高的核心痛点。

2025-07-05 11:59:29 709

原创 Hive UDF 开发实战:MD5 哈希函数实现

摘要:本文详细介绍了Hive UDF开发中MD5哈希函数的实现与优化。通过标准Java加密API实现线程安全的MD5哈希计算,并采用Text类型提升性能。文章包含Maven项目配置升级(支持Hive3/Hadoop3)、UDF部署指南(临时/永久函数)、性能测试对比及生产环境最佳实践(性能优化、安全注意事项)。最后提供了单元测试框架,确保代码质量。关键点包括:同步块保障线程安全、空值处理、依赖管理优化及向量化UDF建议。

2025-07-04 23:02:31 229

原创 千万级数据查询从卡死到200毫秒!我们如何突破实时分析瓶颈?

面对TiDB在处理每日4000万新增数据的实时分析查询时频繁OOM崩溃的问题,团队转向专为OLAP设计的StarRocks。测试结果显示,相同查询从TiDB崩溃提升至200毫秒响应。文章详细介绍了StarRocks的表结构设计(含日期分区、聚合键等优化)和通过BrokerLoad从Hive高效迁移数据的具体实现方法,包括完整的建表SQL和数据加载语句,证实了StarRocks在海量数据分析场景下的卓越性能。

2025-07-03 22:59:05 363

原创 macOS M1 芯片 Java 多版本管理完全指南

摘要:本文提供了Java多版本管理解决方案,推荐使用SDKMAN!工具安装Java 8/11/17/21/23各版本,并给出了智能切换的环境变量配置脚本。文章包含版本验证、IDE集成配置、性能优化建议以及常见问题解决方案,如终端与GUI版本不一致、命令不可用等问题。最后还介绍了版本卸载方法,全面覆盖Java开发环境管理需求。(149字)

2025-03-14 14:07:37 771

原创 司龄十周年

先占个位置,待完善内容。

2024-01-31 09:13:28 523 1

原创 Kafka bootstrap.servers

Kafka bootstrap.servers

2022-06-13 17:54:36 11323 1

原创 HIVE UDF MD5

package org.apache.hadoop.hive.ql.udf.HashMd5UDF;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.MD5Hash;public class HashMd5 extends UDF { public String evaluate(String param) { return "UDF:" + MD5Hash.digest(par...

2022-03-11 13:35:53 369

原创 Centos7 WARNING: ‘aclocal-1.15‘ is missing on your system.

wgethttp://ftp.gnu.org/gnu/automake/automake-1.15.tar.gztar -zxvf automake-1.15.tar.gzcd automake-1.15./configure --docdir=/usr/share/doc/automake-1.15makemake install

2021-12-27 14:20:45 1293

原创 usr/local/lib add ld.so.conf

Libraries have been installed in: /usr/local/lib If you ever happen to want to link against installed libraries in a given directory, LIBDIR, you must either use libtool, and specify the full pathname of the library, or use the `-LLIBDIR' flag du.

2021-12-22 08:37:57 876

原创 Centos7 CMake升级

wget https://cmake.org/files/v3.9/cmake-3.9.2.tar.gztar zxvf cmake-3.9.2.tar.gzcd cmake-3.9.2./configuremakemake installcmake --version

2021-12-22 08:20:52 686

原创 CentOS系统安装Flex 2.6.4完整教程

《CentOS系统安装Flex2.6.4指南》详细介绍了在CentOS7/8系统中编译安装Flex词法分析器的完整流程。内容包括:1)安装前的系统更新和依赖组件准备(gcc、bison等);2)源码下载与解压步骤;3)配置、编译和安装的具体命令;4)安装验证及常见问题解决方法(如libfl.so错误处理);5)卸载方法说明。教程采用标准/usr/local安装路径,通过多线程编译加速过程,并提供了关键命令的完整示例,适用于需要特定Flex版本进行开发的场景。

2021-12-22 08:19:49 1633

原创 Centos7 更新gcc版本

#安装centos-release-scl#yum install centos-release-scl#安装安装devtoolset#yum install devtoolset-8-gcc*#安装激活对应的devtoolset#可以一次安装多个版本的devtoolset,需要的时候用下面这条命令切换到对应的版本,scl enable devtoolset-8 bash#查看版本#gcc -v#切换gcc版本#source /opt/rh/devtoolset-8/enabl.

2021-12-22 08:17:59 473

原创 Cmake出现CMake Error: Could not find CMAKE_ROOT

#hash -r

2021-12-22 08:11:20 1980 2

原创 Go语言 读写锁&互斥锁原理剖析(2)

互斥锁从原理上要比读写锁复杂,Go语言中提供了标准库sync.Mutex,两种操作模式:正常模式:所有协程以先进先出(FIFO)方式进行排队,被唤醒的协程同样需要竞争方式争夺锁,新协程争抢会有优势,因为他们已经运行在CPU上,更容易抢到锁,如果一个协程在等待超过1毫秒会自动切换到饥饿模式下。 饥饿模式:互斥锁会直接由解锁的协程交给队列头部的等待者,新争抢者不能直接获得锁,不尝试自旋,会老...

2020-04-26 17:24:50 1102

原创 Go语言 读写锁&互斥锁原理剖析(1)

读写锁首先我们看rwmutex.go里面定义了RWMutex结构体,RWMutex继承于Lockertype Locker interface { Lock() Unlock()}type RWMutex struct { w Mutex // 互斥锁,写锁协程获取该锁后,其他写锁处于阻塞等待 writerSem uint32 // 写入等待信号量,...

2020-04-25 15:58:09 1002

原创 Nginx反向代理+Go服务实践

前言在后端开发期间,会为前端或者平台上提供API服务接口,这时、我们看完今天的文章可以详细了解到Nginx反向代理到后端服务上的过程。Nginx:是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。可以做反向代理、正向代理,静态服务器等。负载均衡算法:upstrem支持4种负载均衡调度算法:轮询(weight):每个请求按时间顺序逐一...

2020-04-22 22:09:47 1531

原创 Go语言中面向对象

Go语言面向对象: Go语言中没有明确的OOP(Object Oriented Programming)概念, Go语言中只提供了两个关键类型:struct和interface,struct与C++的普通类相似,interface对应的是抽象类的类型。 面积对象是借助struct结构体实现的,interface则是定义接口的。一、类的封装示例讲解:首先我们定义一个汽...

2020-04-20 15:35:41 676

原创 Go语言讲解深拷贝与浅拷贝

一、概念1、深拷贝(Deep Copy):拷贝的是数据本身,创造一个样的新对象,新创建的对象与原对象不共享内存,新创建的对象在内存中开辟一个新的内存地址,新对象值修改时不会影响原对象值。既然内存地址不同,释放内存地址时,可分别释放。值类型的数据,默认全部都是深复制,Array、Int、String、Struct、Float,Bool。2、浅拷贝(Shallow Copy):拷贝...

2020-04-18 17:37:27 3172

原创 Go语言 命令行解析(二)

命令行启动服务的方式,在后端使用非常广泛,如果有写过C语言的同学相信不难理解这一点。在C语言中,我们可以根据argc和argv来获取和解析命令行的参数,从而通过不同的参数调取不同的方法,同时也可以用Usage来打印帮助信息了。在Go语言中urfave/cli是一个简单快速的命令行包,用于在Go语言中构建命令行应用程序,目的是使开发人员能够以表达的方式编写快速分发的命令行应用程序,urfave/...

2020-04-17 16:24:12 905

原创 Go语言 命令行解析(一)

命令行启动服务的方式,在后端使用非常广泛,如果有写过C语言的同学相信不难理解这一点!在C语言中,我们可以根据argc和argv来获取和解析命令行的参数,从而通过不同的参数调取不同的方法,同时也可以用Usage来打印帮助信息了。那么开始今天的话题之前,我们回顾一下在C语言中是如何解析传递的参数的。示例代码:#include <stdio.h>#include &lt...

2020-04-16 16:16:59 521

原创 Go语言 可变参数

最近与同事讨论时,提到Go语言的可变参数,之前没有总结过相关知识点,今天我们介绍一下Go语言的可变参数。可变参数(Variable Parameters):参数数量可变的函数称之为可变参数函数,主要是在使用语法糖(syntactic sugar)。最经典的例子就是fmt.Printf()和类似的函数,fmt.Printf首先接收一个参数,后面可接收若干个参数。实例一:func1使用的是...

2020-04-14 14:25:48 1252

原创 Hive的列分隔符和行分隔符

在创建Hive表时,默认行分隔符"^A",列分隔符"\n",这两项也是可以设置的。在实际开发中,一般默认使用默认的分隔符,当然有些场景下也会自定义分隔符。创建表1:spark-hiveuse test_db;# 创建外部表CREATE EXTERNAL TABLE test_tb (user_id bigint COMMENT '用户ID',user_name string ...

2020-04-13 12:14:05 10820 1

原创 Druid 分析报表中的实战(二)

今天介绍一下druid常用查询类型的TopN和GroupBy。一、数据分类:Timestamp 将时间相近的一些数据聚合在一起,查询的时候指定时间范围,底层使用绝对毫秒数保存的时间戳,默认使用ISO-8601格式展示时间,格式:YYYY-MM-DDTHH:MM:SSSZ,“Z“代表零时区,中国所在的东八区为:“+08:00” Dimensions 与OLAP中的维度是一样的...

2020-04-10 15:45:25 491

原创 Linux 7 cmake:curses library not found

CentOS7 上面安装MySQL5.7出现以下问题:Curses library not found. Please install appropriate package解决方法:# yum安装yum -y install ncurses-devel# 删除文件rm CMakeCache.txt# 重新编译cmake . -DCMAKE_INSTALL_PREFI...

2020-04-09 22:37:05 1001

原创 error while loading shared libraries: libatomic.so.1

安装服务的时候出现的问题:error while loading shared libraries: libatomic.so.1: cannot open shared object file: No such file or directory解决方法:yum -y install libatomic

2020-04-09 22:36:11 11859

原创 Linux 7 pycurl.so: undefined symbol 解决方法

使用yum install 包时出现的undefined symbol问题:yum install libatomic1 -yThere was a problem importing one of the Python modulesrequired to run yum. The error leading to this problem was: /usr/lib64/py...

2020-04-09 22:35:27 1153

原创 make : flex: Command not found

yum -y install flex

2020-04-08 18:35:17 10250

原创 Druid 分析报表中的实战(一)

产品又过来提需求了!案例需求需要按日汇总充值总数的数据。过滤条件:用户包括:“Tom”和“Jack” 所有城市:“北京”、“上海”、“广州”和“深圳” 日期范围:“2020-03-01”到“2020-03-05”我们用SQL语句表示一下产品需要什么数据,能够直观的理解需求,SQL表达如下:SELECT date,SUM(rechange) AS re...

2020-04-07 21:46:59 775

原创 实时OLAP分析利器Druid介绍

Apache Druid 是一个高性能实时分析数据库,在复杂的海量数据下进行交互式实时数据展现的OLAP工具。主要特性:列式存储 预聚合 字典编码 位图索引 流式和批量数据摄入 灵活的数据模式、支持SQL查询 扩展方便,容易运维官方网址:http://druid.io目前国内在使用的公司有:阿里、滴滴、知乎、360、eBay,Hulu等。基础概念...

2020-04-05 10:10:28 701

原创 Go语言 Yaml编码和解码

前言Yaml文件mysql: user: root password: 123456 host: 192.198.1.1 port: 3306 dbname: mdbredis: host: 192.168.1.1 port: 1234 auth: 123456nginx_proxy: counter: 3 nginx_list: ...

2020-04-02 23:14:01 1899

原创 Go语言 ProtoBuf 序列化和反序列化

前言Protobuf是Google开发的一个网络通信协议,提供了高效率的序列化和反序列化机制,序列化就是把对象转换成二进制数据发送给服务端,反序列化就是将收到的二进制数据转换成对应的对象。官方版本支持Go,C++,Java,Python等语言。Go语言中Protocol Buffers是一个灵活、高效的、自动化的用于对结构数据进行序列化和反序列化协议,与XML、Json相比,Pro...

2020-04-02 16:30:16 3224

原创 Go语言 XML生成和解析

前言XML解析:实例XML实例<?xml version="1.0" encoding="utf-8"?><devices version="1"> <device> <deviceName>智能摄像头</deviceName> <deviceCode>1000...

2020-03-31 14:24:31 2433

比较不错的Flex 教程

Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程 Flex 教程

2010-05-19

OO_Programming_with_PHP5

OO_Programming_with_PHP5

2010-07-09

Go语言圣经golang.pdf

Go语言圣经golang.pdf

2020-04-24

网页浮动广告代码 非常好在右侧

网页浮动广告代码 非常好的 网页浮动广告代码 非常好的 网页浮动广告代码 非常好的

2008-12-05

网页浮动广告代码 非常好的

网站浮动广告代码 网页浮动广告代码 非常好的 网页浮动广告代码 非常好的

2008-12-05

Wrox.-.Beginning.Php,.Apache,.Mysql.Web.Development.(2004)

Wrox.-.Beginning.Php,.Apache,.Mysql.Web.Development.(2004)

2011-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除