自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(200)
  • 收藏
  • 关注

原创 Clickhouse 生产集群部署(Centos 环境)

本文总结了如何在 centos 环境下,使用 rpm 构建部署生产环境的 clickhouse 集群。

2024-07-29 08:38:05 1345

原创 深入探索MySQL索引策略

本文旨在深入探讨MySQL(8.0.26)数据库中索引的设计与优化方法。有一张表user(无索引):假如要执行的sql语句为:select * from user where age = 45;需要从第一行开始,一直扫描到最后一行,称为全表扫描,性能很低;有没有提升性能,减少搜索时间的方法呢?在Mysql中,索引就是帮助搜索数据的一种有序的数据结构,它以某种方式引用(指向)数据。

2024-07-29 07:00:00 881

原创 金字塔原理:掌握高效沟通的艺术

本文总结了《金字塔原理》书中的重点内容,力求把每一章节的内容都说清楚给到读者,也为了让自己能够对本书的内容有更加深刻的理解。本书让我收获巨大,切切实实的学习到了很多方式方法(如何表达、如何思考、如何解决问题更加全面?如何演示等等),并且一些是可以在日常的工作、生活中运用的方式方法,可以让自己的口头表达、写作、处理问题能力均有较大提升。感兴趣的同学建议多读几遍原书,会有更加深刻的理解。

2024-07-26 08:48:18 1037

转载 阿里云服务领域Agent智能体:从概念到落地的思考、设计与实践

Agent是目前大模型行业蓬勃发展的全新方向,行业的产品和技术设计也都在早期初级阶段,我们团队也是服务客户这条路上不断“摸着石头过河”,后续还可以在Agent方向进行更多进行探索,比如目前Agent主要是调用了“开箱即用”的工具API,但是这些工具都是基于微应用开发的,开发成本和周期还是比较高的,因此如何让大模型Agent能更准确的调度细粒度的API能力,降低工具的开发配置成本,以及如何结合思维树(ToT)、思维图(GoT)等方式进行Agent推理,也都是后续的重点方向。

2024-07-24 08:00:00 123

原创 通过 AgentExecutor 封装 tools 至 Langchain Agent 及 Memory Agent 的使用 【Langchain Agent】

本文总结了如何使用 Langchain 的 AgentExecutor 封装 tools, 构造我们自己的 Agent, 然后通过 LLM 调用,或者通过 Agent 调用,最后总结了如何让我们的 Agent 带有记忆功能,可以保存历史对话记录,这里为了简单就没有使用实际的数据库,实际生产中还是要使用数据库去保存这些信息的,感兴趣的朋友可以尝试下。

2024-07-21 18:27:59 998

原创 Flink SQL 实时读取 kafka 数据写入 Clickhouse —— 日志处理(三)

本文总结了如何使用使用 Clickhouse 保存日志数据,以及如何通过 Flink SQL 将我们的日志实时从 kafka 同步至 clickhouse,然后在结合强大的第三方查询 BI 工具 superset,玩转业务日志,挖掘业务日志的潜在价值。本文设计到的技能知识点比较多,需要熟悉 Clickhouse, Kafka, FlinkSQL, Superset 等,我之前的文章中总结了一些关于 Clickhouse 和 Kafka 相关的内容,感兴趣的读者可以看看.

2024-07-21 18:22:05 1621 1

原创 Filebeat k8s 部署(Deployment)采集 PVC 日志发送至 Kafka——日志处理(二)

在之前的文章中总结了如何配置 Django 项目的日志,将日志以 JSON 格式写入日志文件。我们的项目服务是部署在 k8s 上的,日志是挂载在 PVC 中的,接下来我们需要使用 Filebeat 去采集 PVC 中的日志,发送至 kafka 中,本文将总结如何在 k8s 上部署 Filebeat, 来采集 PVC 中的日志。

2024-07-19 14:09:04 1165

原创 Django 日志控制台输出、文件写入按天拆分文件,自定义 Filter 增加 trace_id 以及过滤——日志处理(一)

本文总结了如何在 Django 中进行日志配置,不同级别的日志输出到不同的文件中,以及如何给日志加上唯一 trace_id。后边我会总结如何将日志文件通过 filebeat 采集到 kafka,然后使用 FlinkSQL 实时将 kafka 中的日志数据同步到 clickhouse 中进行日志分析。

2024-07-19 11:00:43 1076

原创 LLM-阿里 DashVector + langchain self-querying retriever 优化 RAG 实践【Query 优化】

现在比较流行的 RAG 检索就是通过大模型 embedding 算法将数据嵌入向量数据库中,然后在将用户的查询向量化,从向量数据库中召回相似性数据,构造成 context template, 放到 LLM 中进行查询。如果说将用户的查询语句直接转换为向量查询可能并不会得到很好的结果,比如说我们往向量数据库中存入了一些商品向量,现在用户说:“我想要一条价格低于20块的黑色羊毛衫”,如果使用传统的嵌入算法,该查询语句转换为向量查询就可能“失帧”,被转换为查询黑色羊毛衫。

2024-07-15 08:38:39 1012

原创 LLM-向量数据库中的索引算法总结

向量数据库是当今大模型知识库检索落地实践的核心组件,向量查询的数据与 query 的相似度,直接影响到 prompt 的好坏,本文将对市面上已有的向量数据库进行简单介绍,然后会对其使用到的索引方法进行说明,包括倒排索引,KNN,Approximate KNN, Product Quantization, HSNW 等,会对这些算法的设计理念和方法进行说明。

2024-07-12 07:58:30 1258

原创 LLM——langchain 与阿里 DashScop (通义千问大模型) 和 DashVector(向量数据库) 结合使用总结

langchain 是一个面向大模型开发的框架,其中封装了很多核心组件,包括对文本等非结构化数据的 chunk,向量数据库的嵌入和查询等,并且对许多大模型的调用进行了封装, 如果说我们需要基于多个 LLM 开发 APP, 使用 Langchain 可以极大的简化我们的程序代码,很多操作可以直接通过 Langchain API 进行操作。langchain 还有最重要的一个功能就是社区提供了很多 Agent 工具,比如说:视频做编辑的工具视频转换成动画的工具生成图片的工具生成动画视频的工具。

2024-07-11 08:28:53 1304 1

原创 LLM-阿里云 DashVector + ModelScope 多模态向量化实时文本搜图实战总结

本文使用阿里云的向量检索服务(DashVector),结合ONE-PEACE多模态模型,构建实时的“文本搜图片”的多模态检索能力。多模态数据Embedding入库。通过ONE-PEACE模型服务Embedding接口将多种模态的数据集数据转化为高维向量。多模态Query检索。基于ONE-PEACE模型提供的多模态Embedding能力,我们可以自由组合不同模态的输入,例如单文本、文本+音频、音频+图片等多模态输入,获取Embedding向量后通过DashVector跨模态检索相似结果。

2024-07-11 08:23:25 1445 3

原创 LLM-文本分块(langchain)与向量化(阿里云DashVector)存储,嵌入LLM实践

如何将数据分块,然后向量化嵌入向量数据库中,是 LLM 能够成功预测下一个 token 的关键,本文简单介绍了阿里云向量数据库 DashVector 的使用,并且使用一个具体的案例,将整个流程给串起来,关于 DashVector 还有很多高级功能这里并没有使用,读者可以 自行探索使用以下。后续我会结合阿里云的通义千问大模型和 DashVector 打造一个专业的知识库,以及如何使用多模态嵌入和大模型交互的场景实战。

2024-07-10 08:07:29 1719

原创 LLM-大模型私有模型训练步骤方法总结

本文将从宏观层面说明 LLM 私有模型的训练步骤,包括预训练,微调,合规对齐,再到最后如何集成到我们的 APP 中。⼀家⾦融科技企业希望利⽤⼤模型来解决保险智能客服的业务,希望能够⽤AI助⼿来替代原有的智能客服。本文从宏观层面,简单的讲解了下大模型私有模型训练的相关步骤,以及如何而将 Fixed 模型集成到我们的 APP 中,其中未涉及到一些复杂的名词,后续我们一步步总结如何将 LLM 应用落地实践过程。里边整理了大量的中文 LLM。

2024-07-10 08:00:30 841

原创 流式处理应用场景与流式计算处理框架选择建议

流式处理相关概念总结说明流式处理设计模式总结说明Kafka Streams 架构概览接下来的文章将介绍一些流式处理的实际应用场景以及我们该从哪些方面考虑选择哪些流式处理框架,目前比较流行的流式处理框架有很多,比如说 Flink, Spark Streaming, Kafka Streaming 等。

2024-07-04 09:19:48 867

原创 Kafka Streams 架构概览

在上篇文章中我介绍了关于流式处理设计模式相关的总结以及案例说明,为了更好地理解Streams的工作原理,需要深入了解并理解API背后的一些设计原则,本文将从架构设计层面对这些原则进行说明总结。

2024-07-03 08:55:47 1500

原创 流式处理设计模式总结说明

每一种流式处理系统都不一样——从基本的消费者、处理逻辑和生产者的组合,到使用了Spark Streaming和机器学习软件包的复杂集群,以及其他很多介于二者之间的系统。但不管怎样,还是有一些基本的设计模式和解决方案,它们是解决流式处理架构常见需求的解决方案。下面将介绍一些众所周知的模式,并举例说明如何使用它们。

2024-07-03 08:53:03 771

原创 流式处理相关概念总结说明

人们对流式处理的理解非常混乱。有太多关于流式处理的定义,它们混淆了实现细节、性能需求、数据模型和软件工程很多方面的东西。在关系数据库领域也面临类似的窘境,关系模型的抽象定义总是夹杂了数据库引擎的实现细节和特定局限性。流式处理还处在发展阶段,一些流行的实现方案的处理方式可能很特别,或者有特定的局限性,但这并不能说明它们的实现细节就是流式处理的固有组成部分。

2024-07-02 09:25:27 705

原创 kafka 实现精确一次性语义实践总结

Kafka的精确一次性语义与国际象棋正好相反:要理解它不容易,但用起来很简单。本文将介绍 Kafka 实现精确一次性语义的两个关键机制:幂等生产者(避免由重试机制导致的重复处理)和事务(Streams精确一次性语义的基础)。通过一个配置就可以启用它们,这样就可以很方便地在要求更少重复和更高正确性的应用程序中使用Kafka了。

2024-07-02 09:21:08 812

原创 阿里云 facechanin 人像写真大模型 API 实践

在之前的文章中实践了阿里云的文字转语音大模型,感觉还是挺有意思的,效果也挺不错的,感兴趣的可以看下阿里云 CosyVoice 语音合成大模型 API 实践阿里云 API 实践流程开通灵积服务,获得API-KEY;通过“申请体验”申请FaceChain人物写真生成体验权限,并获得通过;开发调用人物图像检测API,进行用户上传图像的质量校验,非必选链路,可以用于产品中进行前置校验,及时提醒用户更换质量不合格的图像。详情参考人物图像检测API详情;图像文件打包,上传并管理文件,详情参考。

2024-07-01 09:09:39 2139

原创 保证 Kafka 数据可靠性最佳实践总结

可靠性是系统而不是某个独立组件的一个属性,所以,在讨论Kafka的可靠性保证时,需要从系统的整体出发。说到可靠性,那些与Kafka集成的系统与Kafka本身一样重要。正因为可靠性是系统层面的概念,所以它不只是某个个体的事情。Kafka管理员、Linux系统管理员、网络和存储管理员,以及应用程序开发者,所有人必须协同作战才能构建出一个可靠的系统。Kafka在数据传递可靠性方面具备很大的灵活性,它可以被应用在很多场景中——从跟踪用户点击动作到处理信用卡支付操作。

2024-07-01 09:03:59 693

原创 阿里云 CosyVoice 语音合成大模型 API 实践

阿里提供了各种各样的的大模型 API ,包括文字处理,语音,图片,视频等,云服务大模型 AI API 的提供,可以说把普通人进入 AI 行业的门槛降到了最低,以后人人都是 AI 工程师,最珍贵的不再是 AI 算法,而是一个好的 idea,将生活中的大大小小事情结合这些 AI 能力,产生创造力,提升我们的工作生活效率。只想说未来以来,特别是作为程序员的我们,思想一定不能再停留在以前的思考方式。

2024-06-28 15:25:56 2363

原创 通过 API 接口管理 Kafka

除了通过命令行和可视化界面对 kafka 进行管理,也可以通过的 API 对 kafka 进行管理。本文将介绍如何通过进行 kafka 管理:主题管理、消费者群组管理和配置管理。

2024-06-27 09:56:21 965

原创 GPT-5:编织未来智能的经纬

它可能集成深度学习的最新进展,如自注意力机制的进一步优化、多模态融合技术和上下文敏感性增强,使得模型不仅能理解文字的表面意义,更能洞悉背后的情感、文化背景和微妙暗示。创意产业中,GPT-5能成为艺术家、设计师的灵感催化剂,通过生成独特的故事线、设计方案,拓展人类创意的边界。此外,推动跨行业、跨国界的AI伦理标准制定,确保技术的可持续和负责任发展。在复杂任务执行上,比如灾难应急响应、城市规划,GPT-5能够整合多源信息,快速模拟不同情境下的最优解决方案,同时与人类专家紧密合作,确保决策的伦理性和可行性。

2024-06-27 09:46:48 552

原创 kafka 消费者 API 使用总结

应用程序使用KafkaConsumer向Kafka订阅主题,并从订阅的主题中接收消息。不同于从其他消息系统读取数据,从Kafka读取数据涉及一些独特的概念和想法。如果不先理解这些概念,则难以理解如何使用消费者API。本文将先解释这些重要的概念,然后再举几个例子,演示如何使用消费者API实现不同的应用程序。

2024-06-26 09:43:53 1228

原创 筑梦未来:高考后,专业与学校的天秤两端

2024 年高考落幕,几人欢喜几人愁,作为一个过来人,希望每一个努力的悻悻学子都能得偿所愿,不负年华,报的心仪的志愿。接下来我将从三个方向进行一些分析建议,在专业与大学排名间做出适当的权衡。

2024-06-26 09:10:34 388

原创 通用大模型VS垂直大模型——最后还是要双赢

其实,说来说去,通用大模型和垂直大模型就像是两个性格迥异的小伙伴,各有千秋。垂直大模型就像是你那个在某方面特别牛的朋友,一出手,你就知道,专业的事还得交给专业的人(或模型)来做。通用大模型,这家伙可不得了,学富五车,能文能武,从聊天解闷到专业翻译,样样拿手,简直就是AI界的小天才。想象一下,它就像是你那个啥都能聊两句的好朋友,不过人家可比咱聪明多了,还能不断学习进步,未来指不定能干出啥惊天动地的大事来。但垂直大模型呢,因为解决的是实打实的痛点,落地速度嗖嗖的,就像快递小哥,直奔你的家门口。

2024-06-25 14:08:57 244

原创 kafka 生产者 API 实践总结

kafka 对外提供的 API 主要有两类:生产者 API 和 消费者 API,本文将从Kafka生产者的设计和组件讲起,学习如何使用Kafka生产者。将首先演示如何创建KafkaProducer对象和ProducerRecords对象、如何将记录发送给Kafka,以及如何处理Kafka返回的错误响应。然后介绍用于控制生产者行为的重要配置参数。最后深入探讨如何使用不同的分区方法和序列化器,以及如何自定义序列化器和分区器。

2024-06-25 11:05:30 1242

原创 Clickhouse 的性能优化实践总结

ClickHouse是一个性能很强的OLAP数据库,性能强是建立在专业运维之上的,需要专业运维人员依据不同的业务需求对ClickHouse进行有针对性的优化。同一批数据,在不同的业务下,查询性能可能出现两极分化。

2024-06-24 08:05:05 1701

原创 《AI旋律:创意产业的重塑与共生》

AI音乐大模型的出现,无疑是对传统音乐创作的一次巨大挑战,但也是推动整个创意产业进化升级的催化剂。在这个充满变数的时代,只有拥抱变化,不断探索人与技术和谐共生的新路径,才能在AI的乐章中,奏响属于人类智慧与情感的独特旋律,共同开创一个更加多元、包容且充满活力的创意新生态。

2024-06-24 06:00:00 407

原创 ClickHouse 实现用户画像(标签)系统实践

本文介绍一个ClickHouse应用案例—用户画像系统。将从用户画像的需求出发,结合ClickHouse的特点,设计用户画像的系统架构,最终实现用户画像系统。本案例以单机版ClickHouse为基础,ClickHouse超强的单机性能,使得用户画像系统能够轻松承担千万级别的用户画像业务。对于很多中小型企业来说,单机版的ClickHouse已经足以满足业务需求。一个设计良好的ClickHouse表,即使是单机的,也能支撑数以亿计的数据量。

2024-06-04 08:48:13 1521

原创 Clickhouse 的分布式架构说明——Clickhouse 架构篇(五)

ClickHouse通过高度协调配合的存储引擎和计算引擎,实现了令人惊叹的单机性能,但是再强的单机性能也会遇到瓶颈,此时分布式架构就成为解决单机瓶颈的一个选择。本文介绍ClickHouse分布式架构的原理及使用方法。本文介绍了ClickHouse的分布式架构及其运作机制。ClickHouse的强项并不在分布式架构上,其自身的分布式能力也只是聊胜于无。应当将ClickHouse应用到其擅长的领域,不用过分追求强大的分布式能力。

2024-06-04 08:43:11 1865

原创 ClickHouse 使用技巧总结

本文对 Clickhouse 的常用使用技巧进行了总结,包括数据导入导出,建表技巧,如何创建表才能真正提升查询速度,最后介绍了一些高级的技巧,包括投影和物化视图的使用,以及在数据量特别大的时候,使用位图来进行高效的存储和位运算。

2024-05-30 11:13:03 1922

原创 ClickHouse 与其他数仓架构的对比——Clickhouse 架构篇(四)

本文介绍了3种常用的数据仓库(Hive, HBase, Kylin)解决方案的架构以及与ClickHouse的不同之处。这3种数据仓库解决方案都是基于分布式的前提进行的优化,而ClickHouse另辟蹊径,通过提高单机能力实现一定程度上的实时OLAP引擎,这种思路值得我们细细品味。数据文件的组织会影响查询的性能。按行存储的数据相比于按列存储的数据在分析时相对更慢。

2024-05-29 21:44:01 1894

原创 Clickhouse 计算引擎架构 —— Clickhouse 架构篇(三)

相比较于存储引擎的精妙设计,ClickHouse的计算引擎一直是一个争议非常大的话题。对ClickHouse计算引擎的各种评价都有,两极分化很严重。有人认为ClickHouse计算引擎的向量化设计得巧夺天工,也有很多人认为ClickHouse的计算引擎缺乏优化和对分布式的支持,就是个半成品。这些对ClickHouse计算引擎的评价都在一定程度上反映了ClickHouse计算引擎的某些方面,如果从这些方面来看待ClickHouse的计算引擎,难免陷入盲人摸象的状态。

2024-05-29 21:41:11 1687

原创 Clickhouse MergeTree 存储引擎架构总结——Clickhouse 架构篇(二)

存储引擎是ClickHouse非常重要的一个组件,MergeTree表引擎又是 Clickhouse 引擎中最流行的,同时 Clickhouse 之所以查询速度快,与它又密切相关。本文将对 Clickhouse 中的 MergeTree 表引擎架构设计进行说明,进而了解该引擎加速查询的原理,最后将列举 SQL 说明 MergeTree 表引擎的工作过程。

2024-05-28 09:59:52 1635

原创 Clickhouse 窗口函数总结——Clickhouse 基础篇(九)

本文是对 Clickhouse 中窗口函数的各种使用方式进行了总结。

2024-05-28 09:55:27 846

原创 Clickhouse 时间函数操作总结 —— Clickhouse 基础篇(八)

本文对 Clickhouse 的时间函数相关操作进行了总结。

2024-05-27 08:50:18 331

原创 ClickHouse架构概览 —— Clickhouse 架构篇(一)

本文介绍了ClickHouse的整体架构,并对ClickHouse中的一些重要的抽象对象进行了分析。然后此基础上,结合数据库的几个常用的操作,介绍了这些抽象对象的运作机制。ClickHouse 使用的是MPP(Massively Parallel Processing,大规模并行处理)架构,该架构集群中的任意一台服务器都可以单独对外提供服务,是一个多主的结构。

2024-05-27 08:48:04 1491

原创 Clickhouse 字符串函数使用总结—— Clickhouse基础篇(七)

将字符串 10 用字符串 s 补齐至7位,

2024-05-23 11:10:22 876

CosyVoice 大模型文字合成小女孩撒娇语音

使用阿里云提供的 CosyVoice 大模型 API 生成的文字转语音 MP3,文字文案如下: 玲玲姐姐~你最好了嘛!我刚才路过街角那家老糖葫芦摊,那个糖葫芦红彤彤、亮晶晶的,上面的山楂一颗颗圆滚滚,好像在跟我眨眼睛呢!我站在那儿好久好久,闻着那甜甜的香味儿,脚都挪不动步了。 可是我回头想想,自己这个月的零花钱已经全都换成故事书了。我心里痒痒的,就差那么一点点就能尝到那酸甜的滋味儿了。 玲玲姐姐,你能不能当我的救星,让我实现这个小小的愿望呢?下次你有喜欢的东西,我也存钱给你买,好不好嘛~你就答应我这一次,让我感受一下那传统美味在舌尖跳舞的感觉吧!

2024-06-28

CosyVoice 大模型文字合成女朋友撒娇语音

使用阿里云提供的 CosyVoice 大模型 API 生成的文字转语音 MP3,文字文案如下: 哎呀~亲爱的,你知不知道我今天在商场里看到了一个超级超级可爱的小熊玩偶啊? 它的眼睛圆溜溜的,好像会说话一样,我一看到它,心都快要融化了呢~但是人家最近钱包君有点瘦,所以只好忍痛离开了。 可是脑子里一直都是它的影子,转来转去都是它萌萌的样子,我是不是很没出息呀? 要是你能帮宝贝把它带回家,我保证会给你做好多好多好吃的,还会给你一个大大的熊抱加香香的亲亲哦~好不好嘛,就当是给我的小奖励嘛~

2024-06-28

大数据概述包括: 大数据绪论,Hadoop简介,数据库技术历史和发展,分布式计算架构

大数据概述包括: 大数据绪论,Hadoop简介,数据库技术历史和发展,分布式计算架构

2023-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除