自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(505)
  • 资源 (8)
  • 收藏
  • 关注

原创 LLM--RAG中的文本切分策略及长上下文窗口是否会取代RAG?

在使用基于检索的生成模型(RAG)处理长文本数据时,合理的文本切割策略是提高模型性能和效率的关键。本文讲解文本切割相关的概念及技术要点。目前LLM模型进化的方向是增加上下文窗口的长度,主流LLM支持的上下文窗口长度越来越大,并且随着Infini-Transformer架构的出现,那么长上下文窗口是否会取代RAG?

2024-04-14 15:05:56 875

原创 LLM-大模型演化分支树、GPT派发展阶段及训练流程图、Infini-Transformer说明

LLM-大模型演化分支树、GPT派发展阶段及训练流程图、Infini-Transformer说明

2024-04-14 11:22:56 1092

原创 快速了解FastAPI与Uvicorn是什么?

FastAPI is a modern, fast (high-performance), web framework for building APIs with Python 3.8+ based on standard Python type hints.本文带你快速了解FastAPI与Uvicorn是什么?

2024-04-06 22:23:25 888

原创 clickhouse MPPDB数据库--新特性使用示例

从clickhouse 22.3至最新的版本24.3.2.23,clickhouse在快速发展中,每个版本都增加了一些新的特性,在数据写入、查询方面都有性能加速。本文根据[clickhouse blog](https://clickhouse.com/blog)中的clickhouse release blog中,学习并梳理了一些在实际工作中可能用到的新特性。

2024-04-04 14:08:35 986

原创 docker容器添加新端口映射的步骤及`wsl$`目录的作用

docker容器如何添加新的端口映射在windows的Docker desktop中,`wsl$` 目录的作用是什么?

2024-04-01 20:35:25 228

原创 LLM-在CPU环境下如何运行ChatGLM-6B

ChatGLM-6B-INT4 是 ChatGLM-6B 量化后的模型权重。具体的,ChatGLM-6B-INT4 对 ChatGLM-6B 中的 28 个 GLM Block 进行了 INT4 量化,没有对 Embedding 和 LM Head 进行量化。量化后的模型理论上 6G 显存(使用 CPU 即内存)即可推理,具有在嵌入式设备(如树莓派)上运行的可能。在 CPU 上运行时,会根据硬件自动编译 CPU Kernel ,请确保已安装 GCC 和 OpenMP (Linux一般已安装,对于Wind

2024-03-31 14:54:29 334

原创 LLM--使用Milvus向量数据库必须知道的基本概念

Milvus 是一款专为大规模向量相似度搜索而设计的开源向量数据库。它旨在高效、快速地处理高维向量数据,并支持实时、近似最近邻(Approximate Nearest Neighbor, ANN)检索,适用于各种涉及向量搜索的应用场景,如图像识别、语音识别、推荐系统、自然语言处理(NLP)等。本文介绍使用Milvus作为向量数据库时必须知道的基本概念

2024-03-31 10:01:16 53

原创 LLM--如何使用SentenceTransformer将文本向量化

将文本向量化是自然语言处理(NLP)中的一项关键步骤,其主要目的是将原本难以直接被计算机理解的自然语言文本转换成数值形式的向量,以便于后续的机器学习算法和深度学习模型进行处理、分析和建模本文介绍如何使用SentenceTransformer将文本向量化

2024-03-31 09:41:57 392

原创 LLM--打造Private GPT需要知道的一些概念及术语

打造Private GPT需要知道的一些概念及术语

2024-03-31 09:19:15 1081

原创 LLM--提示词Propmt的概念、作用及如何设计提示词

一种用于`指导`人工智能(如聊天机器人或图像生成工具)`生成特定内容`的文字。**提示词**的设计旨在以一种`高效`、`精确`的方式向模型传达用户的`意图`或所需的`任务类型`,从而使模型想你所想。有关如何写好提示词,请学习[面向开发者的大模型手册 - LLM Cookbook](https://github.com/datawhalechina/llm-cookbook),设计高效 Prompt 的两个关键原则:**编写清晰、具体的指令**和**给予模型充足思考时间**

2024-03-31 08:41:25 1085

原创 Milvus 向量数据库:如何基于docker-compose在本地快速搭建测试环境

Milvus 向量数据库:如何基于docker-compose在本地快速搭建测试环境

2024-03-23 11:46:32 178

原创 Ollama 在本地快速启动并执行LLM【大语言模型】

Ollama 让你快速的在本地部署、启动并执行大语言模型Ollama makes it easy to get up and running with large language models locally.Get up and running with Llama 2, Mistral, Gemma, and other large language models.

2024-03-19 21:06:48 412

原创 windows 10清除文档操作记录方法汇总

windows 10清除文档操作记录方法汇总

2024-03-09 09:11:44 197

原创 大模型之SORA技术学习

Sora改变AI认知方式,开启走向【世界模拟器】的史诗级的漫漫征途,才是未来暴风眼,真正的重点。但Sora并没有理解整个世界和诸多物理细节,常识及定律,而是根据GPT语义解释能力、丰富的联想和丰富度,基于海量的视频库,抄写视频片段并猜视频下一帧,并使用Diffusion、GAN(对抗式生成网络技术)将多个视频片段混合在一起,产生稳定且连续的短视频。

2024-03-03 12:51:45 1046

原创 大模型(LLM)的训练语料信息汇总

大模型的训练,大规模的语料是很重要的大型语言模型在许多自然语言处理任务上取得了显著进展,研究人员正在转向越来越大的文本语料库进行训练大多数基于Transformer的大型语言模型 (LLM) 都依赖于英文维基百科和Common Crawl、C4、Github的4个大型数据集。这几个数据集是最常用的,基本上大部分大模型训练过程都会使用到,其中CommonCrawl的数据集比较大,而wiki Pedia的数据集比较规整相对来说比较少

2024-03-03 11:02:54 1621

原创 大模型(LLM)的量化技术Quantization原理学习

在自然语言处理领域,大型语言模型(LLM)在自然语言处理领域的应用越来越广泛。然而,随着模型规模的增大,计算和存储资源的需求也急剧增加。为了降低计算和存储开销,同时保持模型的性能,LLM大模型的量化技术应运而生本文记录针对量化技术原理的学习

2024-03-02 12:55:22 1591 2

原创 大模型(LLM)的token学习记录-I

在 LLM 中,token代表模型可以理解和生成的最小意义单位,是 LLM 进行处理的最小单元。根据所使用的特定标记化【Tokenization】方案,token可以表示单词、单词的一部分,甚至只表示字符。采用的方案由模型的类型和大小决定token被赋予数值或标识符,并按序列或向量排列,并被输入或从模型中输出,是模型的语言构件。模型理解这些token之间的统计关系,并擅长做token的接龙token化是将输入和输出文本分割成可以由LLM AI模型处理的较小单元的过程。

2024-02-27 22:18:20 1115

原创 具身智能(Embodied AI)的概念、核心要素、难点及突破性进展

**具身智能**作为人工智能发展的一个重要分支,正在迅速崭露头角,成为科技界和大众关注的热门话题,同时在各个领域中展现出巨大的潜力和吸引力**具身智能是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统**。本文讲解具身智能(Embodied AI)的概念、核心要素、难点及突破性进展

2024-02-25 22:11:16 1605

原创 springboot集成Sa-Token及Redis的redisson客户端

Sa-Token 是一个轻量级 Java 权限认证框架。为什么集成Redis的redisson客户端?因为项目都是使用redisson redis客户端,但sa-token-redis-jackson读取Redis是基于spring-boot-starter-data-redis实现的,而spring-boot-starter-data-redis操作Redis是基于luttuce redis客户端实现的所以本文给出spring集成Sa-Token及Redis的redisson客户端的示例

2024-02-12 12:54:45 530

原创 Springboot 2.5.x如何集成Nacos 2.x的配置管理功能?

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service的首字母简称,一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。Nacos 致力于帮助您发现、配置和管理微服务。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据及流量管理。本文介绍Springboot 2.5.x如何集成Nacos 2.x

2024-02-11 18:24:51 226

原创 git如何导出提交记录及修改的文件清单?

git如何导出提交记录及修改的文件清单?

2024-01-22 20:45:27 451

原创 WCP知识分享平台的容器化部署

WCP是一个知识管理、分享平台,支持针对文档(包括pdf,word,excel等)进行实时解析、索引、查询。通过WCP知识分享平台进行知识信息的收集、维护、分享。通过知识创建、知识更新、知识检索、知识分享、知识评价、知识统计等功能进行知识生命周期管理。本文介绍如何容器化部署WCP

2024-01-21 10:53:27 97

原创 docker--Prometheus、Grafana、node_exporter的安装配置及Springboot集成Prometheus示例

Prometheus一个系统和服务监控系统。它以给定的时间间隔从配置的目标收集指标,计算规则表达式,显示结果,并在观察到某些条件为真时触发警报。可观察性侧重于根据系统产生的数据了解系统的内部状态,这有助于确定基础设施是否健康。Prometheus是用于监视和观察系统的核心技术本文针对Prometheus、Grafana、node_exporter的安装配置进行讲解并提供Springboot集成Prometheus示例

2023-12-21 16:30:33 1272

原创 搜索引擎高级用法总结: 谷歌、百度、必应

搜索引擎高级用法总结: 谷歌、百度、必应

2023-12-04 12:43:09 509

原创 WireMock让你根据接口文档,轻松快速的模拟接口服务?

如何根据接口文档,快速轻松的模拟接口服务WireMock 是一个Http 模拟服务,其核心也是一个web服务,WireMock主要是为特定请求提供固定的返回值。WireMock可以作为单独进程启动,模拟一个WEB服务器,提供一些API访问,并返回特定的返回值。也可以作为第三方库在项目中使用。

2023-11-28 19:55:34 213

原创 REST-Assured--JAVA REST服务自动化测试的Swiss Army Knife

REST Assured是一套基于 Java 语言实现的开源 REST API 测试框架

2023-11-28 19:34:05 189

原创 如何源码编译seaTunnel

如何源码编译seaTunnel

2023-11-23 08:58:56 472

原创 pyhive的离线安装及使用示例

pyhive的离线安装及使用示例

2023-11-20 19:19:52 466

原创 ClickHouse Keeper: Coordination without the drawbacks没有缺点的分布式协作系统

现代分布式系统需要一个共享和可靠的信息存储库和共识系统来协调和同步分布式操作。对于ClickHouse来说,ZooKeeper最初是被选中的。它的广泛使用是可靠的,提供了简单而强大的API,并提供了合理的性能。但zookeeper存在很多缺点,当CH集群规模或写数据频繁时,Zookeeper会成为整个CH的性能瓶颈。如果你的CH集群写操作比较多时,需要考虑使用ClickHouse Keeper来替换zookeeper

2023-11-09 08:55:12 579

原创 Oracle常用运维SQL-SQL执行性能及锁表等查询分析

在Oracle数据库运维中,有一些常用的SQL语句可以帮助管理员进行性能优化、监视数据库活动、诊断问题以及执行常见的管理任务。本文针对这些常用的运维SQL进行总结,针对常用的系统表给出使用示例

2023-11-05 22:42:51 404

原创 Oracle TEMPORARY TABLE 临时表的使用及删除报ORA-14452错误的解决办法

在Oracle数据库中,可以使用`CREATE GLOBAL TEMPORARY TABLE`语句来创建临时表。临时表是一种特殊的表,其数据仅在会话级别可见,会话结束后数据会自动清除。这对于需要临时存储数据的情况非常有用。

2023-11-05 20:57:22 472

原创 科普长文--网络安全拟态防御技术概念及应用

网络安全拟态防御技术是一种基于生物拟态原理,利用动态异构冗余构造、拟态伪装机制、测不准效应等手段,实现网络空间的主动防御和内生安全的技术。它是由中国工程院院士邬江兴首创的,旨在应对网络空间中的各种未知威胁,提高网络安全防御的效率和效果。

2023-10-20 19:16:34 1092

原创 LLM ReAct: 将推理和行为相结合的通用范式 学习记录

LLM ReAct: 将推理和行为相结合的通用范式 学习记录

2023-10-20 18:13:36 1020

原创 docker--在Anaconda jupyter 容器中使用oracle数据源时,Oracle客户端安装配置及使用示例

Anaconda jupyter中使用oracle数据源的客户端安装配置及使用示例

2023-10-11 20:45:00 802

原创 docker--redis容器部署及地理空间API的使用示例-II

Redis Geospatial 是 Redis 3.2 版本新增的数据类型,主要用于存储地理位置信息,并对存储的信息进行操作。GEO 本身并没有设计新的底层数据结构,而是直接使用了 Sorted Set 集合类型。GEO 类型使用 GeoHash 编码方法实现了经纬度到 Sorted Set 中元素权重分数的转换,这其中的两个关键机制就是「对二维地图做区间划分」和「对区间进行编码」。一组经纬度落在某个区间后,用区间的编码值来表示,把编码值作为 Sorted Set 元素的权重分数。本文提供使用示例

2023-10-01 23:10:49 661 1

原创 docker--redis容器部署及与SpringBoot整合-I

redis容器部署及与SpringBoot整合

2023-09-28 17:49:30 525 1

原创 Springboot: Spring Cloud Gateway 使用的基本概念及配置介绍

Springboot: Spring Cloud Gateway 使用的基本概念及配置介绍

2023-09-25 22:15:00 730

原创 JAVA 实用开源工具集持续梳理中......

JAVA 实用开源工具集持续梳理中......

2023-09-22 21:30:00 259

原创 clickhouse MPPDB数据库 运维实用SQL总结IV

clickhouse针对分布式DDL执行报错及写入数据时表table_is_read_only 问题的修复方法

2023-09-21 21:30:00 372

原创 python3实践-- 实用代码片段总结-1

针对python使用过程中,经常使用的代码片段进行总结,梳理

2023-08-13 13:06:41 154

TSec零信任Lite版公开版.pdf

腾讯TSec零信任Lite版公开版

2023-06-09

CSOP 2023北京站-PPT

网络安全运营与实战大会 CSOP 2023北京站 演讲部分PPT CSOP 2023北京站_“新攻防”背景下,终端安全建设新思路 CSOP 2023北京站_安全能力自动化实践 CSOP 2023北京站_构建情报共享、协同防御的攻防对抗指挥体系 CSOP 2023北京站_企业资产暴露面的收敛 CSOP 2023北京站_云上攻防的点-线-面-体

2023-06-05

阿里 & 蚂蚁 OceanBase 原生分布式关系数据库介绍及典型使用案例

阿里OceanBase: 企业级数据管理解决方案及典型应用案例

2021-11-09

将MySQL或PostgreSQL的库表导出产生WORD文档

将MySQL或PostgreSQL的库表定义,按指定的WORD文档模板,导出产生WORD文档

2021-08-13

GoF设计模式.xmind

GoF 23种设计模式思维导图,按三大分类组织,给出每种模式的使用场景及常用实现

2021-07-08

中国数据库行业研究报告.pptx

艾瑞咨询2021的中国数据库行业研究报告

2021-06-11

HBase在搜索网页库上的应用_360.pdf

HBase在搜索网页库上的应用_360 HBase: 作为Hadoop的子项目,HBase是分布式,面向列的数据库,是在HFDS的基础上提供类似BigTable的功能; 适合非结构化数据存储的数据库,基于列的模式,主要用于随机访问,实时读写大数据;不提供类似SQL语句支持,使用比较简单;

2013-07-28

如何解决weblogic multicast Exception

如何解决weblogic multicast Exception

2012-09-01

新版设计模式手册[C#].pdf

新版设计模式手册[C#].pdf 讲述了在CSHARP中如何使用设计模式,并有详细的代码例子

2009-03-01

Visual_Csharp简单入门.chm

Visual_Csharp简单入门.chm

2009-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除