colorknight-CSDN博客

原创如何使用ElasticSearch搭建LLM-RAG系统

在之前的案例视频中我们演示了使用Milvus向量数据库和腾讯向量数据库实现RAG的场景应用。今天我们演示下利用ES的向量数据存储能力来实现RAG，包括三个部分：连接ES数据库并建表；数据写入ES向量数据库流程；问答对话流程。具体操作可参照下面的视频：《玩转数据之使用ElasticSearch搭建RAG》

2024-05-06 08:15:00 1341

原创 HuggingFists-如何复用流程(二)

我们仍然使用上一篇文章中介绍的子流程示例，进行少许改造，流程图如下：该流程仍表达了对输入的数据流添加一个列，并将数据流输出。不同之处在于图中右侧的蓝色框部分。这里没有为添加的列给出明确的名字，而是以${col}的变量形式进行了代替。”${变量名}”为HuggingFists的变量表达式，允许使用者在执行流程的时候为其赋值，而不必在流程定义时就明确其值。看流程左下部的蓝色框部分，当使用者在算子属性部分填充入变量表达式时，就会在“变量”页自动添加一个变量，可为其设置显示名及缺省值。

2024-04-15 14:26:29 396

原创使用Kimi大语言模型实现知识图谱抽取

由于HuggingFists的当前版本并未支持Kimi的算子，在验证使用前需要将算子导入HuggingFists中才能使用，可以从GitHub或者百度网盘中下载补充算子，在目录中中找到/moonshot/路径中下载。在启动流程的执行，查看下结果，发现其中有两个人的头衔title为空，对照原文，头衔信息没有描述，因此输出结果还比较令人满意。反过来，再看下基于通义大模型的输出结果，一方面有的数据抽取有些不符合，另一方面抽取的信息里面包含了人物关系。运行完成后，在流程中的->中查看，如下。

2024-04-15 10:35:09 1529

原创国产低代码工具，轻松搞定数据迁移

在日常的业务系统升级或者数据维护过程中，数据迁移是各个企业用户不得不面临的问题，尤其是数据迁移过程中要保障数据完整性、统一性和及时性，同时也需要注意源数据中的数据质量问题，比如缺失、无效、错误等问题，需要在迁移中尽可能的进行优化，以提高数据迁移后的数据质量。至此，完成不仅完成了跨数据库之间的数据迁移，同时，在迁移的过程中完成了数据补充、数据转换、数据增加等操作，在数据迁移过程对数据处理提供了更多的可调整性。最后，进入MySQL数据库中查看下已经写入的数据，

2024-04-10 20:15:23 745

原创 HuggingFists-如何复用流程

正如我们在上一节所说，在HuggingFists中,任何一个流程都可以被其它流程引用使用。主流程可以驱动被引用流程执行。但如果希望向被引用流程输入数据流或接收其输出流，则需要一些特殊的定义了。就如同使用函数时，需要声明函数的入参及返回值一样，我们也需要为流程进行相应的声明。如上图，在进行流程定义时，我们可以看到流程定义面板的两侧有两类端口。一类是在定义面板左侧边缘，蓝色框内的输入端口，表示当前流程可以从该端口获得输入数据。

2024-04-10 16:03:09 768

原创大语言模型无代码构建知识图谱+视频链接

之前通过系列文章介绍了如何利用HugggingFists系统无代码构建知识图谱，这次给出视频，方便大家更直观的了解如何操作。

2024-03-20 10:35:17 486

原创 HuggingFists系统介绍+视频链接

之前通过系列文章介绍了HugggingFists系统，这次给出视频，方便大家更直观的了解如何使用HuggingFists系统。

2024-03-20 10:23:48 254

原创 “平民化”非结构数据处理

由于非结构化数据没有模式，其拥有了更广泛的存储选择，其可以存储在文件系统中，也可以存储在数据库中，对于其数据的应用场景而言，没有本质的差别。在全球信息产业高速发展的背景下，IDC预测，2018 到 2025 年之间，全球产生的数据量将会从 33 ZB 增长到 175 ZB，复合增长率27%，其中超过 80%的数据都会是处理难度较大的非结构化数据，如文档、文本、图形、图像、音频、视频等。在这个项目中，朋友除了有海量的结构化数据需要处理外，还有大量的诸如文档、图片、音频、视频类数据处理的需求。

2024-02-29 08:28:35 1218

原创无代码、低代码平台沉思三问

要么就是需求本身并不确定，需求总是随着业务发展而不断调整，采用代码开放方式响应需求太慢，从而采用无代码、低代码概念来加速需求的快速满足。无代码、低代码平台的引入，可以大大降低用户的学习和使用成本，甚至业务人员可以直接参与自己需求的实现，节省了与开发工程师的沟通环节，提升了整体的交付效率。它不仅是提供了一套可操作的界面，更是提供了一套“无代码”，“低代码”的开发理念。这里我们总结的原因还比较片面，还会有很多其它因素影响着这类平台的普及，比如：商业环境、消费习惯等，在这里我们就不展开了。

2024-02-28 10:08:43 483

原创数据脱敏(八)静态脱敏

提供ftp,sftp,百度盘，阿里云文件系统，腾讯文件系统等多种文件系统连接插件及配套读写算子。数据流程以爬取的工商数据为基础，合并从百度百科，搜狐，医院，学校，党政机关，ICP，地图信息等，中间经过数据合并，去重，调用API接口识别行业，指定ID(MD5算法)等，最终入库。静态脱敏一般从已存在的数据库或数据集中获取数据，经过脱敏处理后写入新的数据库或文件，构建个简单的流程如下。配合算子平台提供的各种算法以及简单快捷的算子开发方式，可快速构建静态脱敏流程。静态脱敏-文件系统连接器。静态脱敏-数据库连接器。

2024-02-26 23:12:08 721

原创 HuggingFists系统功能介绍(5)--环境&资源

HuggingFists系统的基本功能我们介绍完了。感兴趣的朋友可以安装并试用下了。通过本次介绍，使用者应该可以自行搭建自己的数据处理或分析流程了。至于HuggingFists系统还有很多应用细节，我们后续将再做专题介绍。在此之前，大家也可以自行点击摸索使用,期间大家碰到什么问题或有任何建议可以扫描下面的二维码加入群组与我们一起讨论。

2024-02-25 15:43:23 1275

原创 HuggingFists系统功能介绍(4)--作业管理

每当流程作业满足调度计划的调度条件时就会产生一个具体的流程任务，HuggingFists会调度该流程任务完成具体的执行。第一步填写作业基本信息，选中作业运行所需的流程及版本，若作业运行所需的时间比较长，可以增大作业超时时间，缺省为7200秒，即2个小时；HuggingFists的支撑功能拥有很好的环境适应性，其能方便、快捷的整合本地以及互联网中的各类能力，从而集中、高效、低成本的解决使用者的各类数据业务需求。在定义可多次运行的作业时，需要格外注意作业可能被调度的频次是否会超出系统计算资源的支撑能力。

2024-02-25 15:31:53 456

原创 HuggingFists系统功能介绍(3)--流程管理

下面我们点击“新增流程”按钮，创建一个流程。流程类型为“执行图流程”；业务类型根据需要选择“数据处理”或“数据分析”；计算框架选择“单机引擎”。HuggingFists社区版只支持“单机引擎”，即一个流程运行时只能使用一台机器的CPU及内存资源的引擎。而其企业版则还可以选择Spark批计算引擎以及Flink流计算引擎，可以使用集群的算力，用于处理更大规模的数据。最后，填写流程名称，选填描述信息点击“确定”按钮，创建流程，进入流程的定义界面。流程定义界面。

2024-02-25 15:15:37 1143

原创 HuggingFists系统功能介绍(2)--数据源&账号

HuggingFists为其集成的所有数据库都提供了一致操作及查看界面，可以极大的降低使用者的学习成本，当然也牺牲了部分数据库的特点。使用者不能将HuggingFists的数据库管理模块预期为一个专业的数据库管理工具，其定位更多是为了让用户能够对待处理与分析的数据有一个初步的了解。因为结构化数据是不需要太关注这类数据源的。社区版系统安装完后，会将本地文件系统的特定目录预置为HuggingFists的内置文件系统，HuggingFists内的读取/写出类算子会缺省以内置文件系统作为读取/写出的目标。

2024-02-25 14:59:38 971

原创 HuggingFists系统功能介绍(1)--系统概述

HuggingFists是一款低代码AI应用工具，力图发展为LangChain的低代码平替工具。HuggingFists发起于数由科技的Sengee数据科学计算框架，因此其界面风格继承了数据科学工具的很多特征。有别于完全基于LangChain衍生出的低代码工具Flowise，其风格更类似于开源的ETL工具Kettle或者是数据分析工具RapidMiner、KNIME等。对于熟悉这类工具的使用者来说会更容易接受并使用。

2024-02-25 14:48:51 1269

原创数据脱敏(七)脱敏算法-洗牌算法

"洗牌脱敏"是一种数据处理技术，主要用于保护个人隐私和数据安全。需要注意的是，洗牌脱敏虽然可以保护个人隐私，但也可能导致数据失真，影响数据分析的准确性。因此，在使用洗牌脱敏时，需要权衡隐私保护和数据质量之间的关系。3.执行洗牌：使用编程语言或数据处理工具，对原始数据进行洗牌操作。这可以是全量洗牌，也可以是根据条件进行部分洗牌。2.洗牌策略：根据业务需求和法规要求，制定合适的洗牌策略。4.验证和测试：在洗牌完成后，需要对数据进行验证和测试，确保洗牌效果符合预期，且不影响数据的正常使用。

2024-02-25 13:23:56 460

原创数据脱敏(六)脱敏算法-加密算法

它通过将敏感信息（如姓名、身份证号、电话号码等）进行加密处理，使其无法直接识别，以防止数据泄露和滥用。需要注意的是，加密脱敏虽然可以保护个人隐私，但也可能导致数据失真，影响数据分析的准确性。因此，在使用加密脱敏时，需要权衡隐私保护和数据质量之间的关系。这可以是全量加密，也可以是根据条件进行部分加密。4.验证和测试：在加密完成后，需要对数据进行验证和测试，确保加密效果符合预期，且不影响数据的正常使用。加密算法比较多，简单构建一个流程，包含数据加密解密，流程图如下。加密算法有很多，根据实际业务需求开发使用。

2024-02-21 18:51:53 504

原创数据科学低代码工具思考—期望与梦想

以上六条是笔者对于“数据科学低代码工具”的期望与梦想，也是笔者创业团队的目标。目前我们还在路上，但所有的期望都已经有了落地方案与实践。可以在我们的社区版工具中部分体验到。欢迎有兴趣的朋友试用、指正。

2024-02-21 09:00:00 1204

原创数据脱敏(五)脱敏算法-变换算法

脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据"变换脱敏"是一种数据处理技术，主要用于保护个人隐私和数据安全。它通过将敏感信息（如姓名、身份证号、电话号码等）进行某种形式的转换，使其无法直接识别，以防止数据泄露和滥用。这种技术在数据分析、数据挖掘、数据共享等领域有广泛应用。在实际操作中，变换脱敏通常包括以下几个步骤：1.识别敏感信息：首先需要确定哪些信息是敏感的，例如个人信息、财务信息等。这可以通过人工审查或使用自然语言处理等技术实现。

2024-02-20 17:47:55 679

原创 HuggingFists-低代码玩转LLM-腾讯云RAG(2)

使用腾讯云技术栈搭建RAG(检索增强生成)的实验完成了。在这个实验中，我们主要利用了腾讯云的相关技术栈。但这种搭建方式可以扩展到其它的云端服务，可以最大限度的使用各类云端服务搭建起面向个人的RAG应用。实验中，我们引入了Cohere的文本重排算法，用于优化文本的相关度排序，减小提交到大语言模型的提示上下文的长度。这里有两方面内容需要权衡，一是成本问题，即Cohere的文本重排算法本质上也是收费的，那么到底是重排的收费更高还是生成的收费更高是我们需要在方案选取时思考的问题；

2024-02-20 09:00:00 1201

原创数据脱敏(四)脱敏算法-替换算法

需要注意的是，替换脱敏虽然可以保护个人隐私，但也可能导致数据失真，影响数据分析的准确性。因此，在使用替换脱敏时，需要权衡隐私保护和数据质量之间的关系。例如，可以将姓名替换为“XXX”，将电话号码替换为“XXXX-XXXX-XXXX”等。4.验证和测试：在替换完成后，需要对数据进行验证和测试，确保替换效果符合预期，且不影响数据的正常使用。首先构建流程，从csv文件读取内容，之后对籍贯进行替换，并输出结果。流程图如下，从csv文件选取姓名，籍贯两个字段，分发给替换算子。替换脱敏-csv数据。

2024-02-19 11:55:56 480

原创 HuggingFists-低代码玩转LLM-腾讯云RAG(1)

本次我们选择使用腾讯云的向量库来代替Milvus向量库，完RAG应用场景的搭建。除了向量库采用腾讯云以外，我们本次也将文本Embedding以及大语言模型都换成腾讯云的技术栈，大模型使用腾讯云的混元大模型。在搭建这个实验的过程中，我们能够看到不同技术路线带来的效果差异。

2024-02-19 00:08:46 1111 2

原创数据脱敏(三)脱敏算法-遮盖算法

脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据遮盖脱敏是一种数据脱敏技术，它的主要目的是通过隐藏或替换敏感信息来保护数据安全，同时保持数据的其他特性不变，以便于数据的进一步使用和分析。这种脱敏技术适用于需要对敏感数据进行展示或分享的场景，例如在开发测试、数据分析、报告生成等过程中。在使用遮盖脱敏时，可以根据需要选择不同的脱敏规则，如保留特定位置的字符、替换为指定字符、字符前后遮盖等。例如，可以选择仅显示身份证号的前几位和后几位，而隐藏中间敏感的数字；或者使用特定的

2024-01-25 15:27:27 705

原创字符串随机生成工具(开源)-Kimen(奇门)

由于最近笔者在开发数据脱敏相关功能，其中一类脱敏需求为能够按照指定的格式随机生成一个字符串来代替原有信息，数据看起来格式需要与原数据相同，如：电话号码，身份证号以及邮箱等。在网上搜索了下，发现没有特别合适的开源工具，于是秉承着没有开源就自己写的宗旨。笔者开发了一个小的开源工具--Kimen(奇门)。这个工具可以按照给定的表达式随机生成字符串，简单易用。项目代码不多，但用到了些编程技巧，如：antlr的使用。但更多是对解决这个字符串随机生成问题的设计思考。

2024-01-25 09:00:00 1289

原创数据脱敏(二)脱敏算法-哈希脱敏

它将原始数据（如密码、身份证号等）通过哈希算法转换成固定长度的哈希值，即使哈希值被泄露，也无法逆向还原出原始数据。首先构建流程，从csv文件读取内容，之后对联系方式分别进行MD5,SHA-1,SHA-256计算，并输出结果。哈希算子中选择对应的哈希算法，盐值可选，为了方便对比结果，输出模式选择新增一列存储计算结果。流程图如下，从csv文件选取学号，姓名，联系电话三个字段，分发给三个哈希算子。脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据。流程结果-SHA-256。

2024-01-21 21:50:38 704

原创大语言模型无代码构建知识图谱(3)--低代码流程构建

由示例可以看出，大语言模型的泛化能力能够非常精准的抽取文本中的实体、关系等知识信息。其能够大大提升知识提取的效率与准确性。HuggingFists低代码平台的出现进一步促进了知识图谱构建的效率。它大幅降低了知识图谱构建人员的技术要求，使得从事该工作的人员有了更大的选择范围。不断下降的构建成本，意味着可以有更多的客户享受到知识图谱带来的业务价值。

2024-01-21 15:06:19 1289

原创大语言模型无代码构建知识图谱(2)--环境准备

请帮我分析####后文字中的人物关系，并按照关系方向输出数据，如：父子关系时，父亲在前，儿子在后。以json格式输出，格式如下：{"src":"源名称","relation":"关系","dst":"目的名称"}其次，在HuggingFists右上角的个人信息->个人设置->资源账号中添加一个阿里灵积访问账号。选中阿里灵积类型，并将申请到的访问令牌填充进“访问token”输入框，填充完成后提交，创建成功。请帮我分析####后文字中的事件及事件相关的人物和时间，并将结果输出为json格式。

2024-01-21 08:45:00 1109

原创大语言模型无代码构建知识图谱(1)--提示工程准备

2023年3月15日，ChatGPT4.0的横空出世，将人们对大语言模型的关注推到了风口浪尖。由于其在智能问答、翻译以及文本生成等工作任务上的卓越表现，业界一度出现了不再需要发展知识图谱相关技术的观点，知识图谱相关概念严重受挫。无可置疑的是，大语言模型的确在智能问答等功能上与知识图谱存在交集，并且表现令人惊讶。但由于大语言模型不可避免的“幻觉”问题，使其存在无法给出准确、全面回答的情况，故而无法适应用户全面的场景需求。

2024-01-20 20:17:06 1280

原创大语言模型无代码构建知识图谱概述

由示例可以看出，大语言模型的泛化能力能够非常精准的抽取文本中的实体、关系等知识信息。其能够大大提升知识提取的效率与准确性。HuggingFists低代码平台的出现进一步促进了知识图谱构建的效率。它大幅降低了知识图谱构建人员的技术要求，使得从事该工作的人员有了更大的选择范围。不断下降的构建成本，意味着可以有更多的客户享受到知识图谱带来的业务价值。

2024-01-20 08:45:00 1531

原创数据脱敏(一) 基本概念

静态数据脱敏(Static Data Masking)，采用先脱敏后分发的策略，一般是将生产环境数据先脱敏，再拷贝到测试或开发库中，导出到其他环境的数据已经改变了原始数据的内容，使得脱敏后的数据成为了测试开发源数据。动态数据脱敏：在数据使用过程中进行脱敏，即在对数据进行读取或写入的同时，进行脱敏处理。总的来说，静态数据脱敏和动态数据脱敏的主要差别在于处理时间（脱敏发生在数据存储或传输过程中，还是数据使用过程中）和处理对象（脱敏是针对存储或传输过程中的数据，还是针对使用过程中的数据）。

2024-01-14 15:55:32 842

原创数据科学低代码工具思考2—现状分析

上图是RapidMiner工具的流程表达方式，可以看到其每个功能节点上都有输入/输出端口的表达，通过端口我们可以直观的看到一个功能节点工作时需要几个输入并会有几种输出结果(注：我们可以看到图中的每个功能节点都有多个输出，这是由于RapidMiner的每个端口只能有一个连线的设计导致的。因此，笔者更喜欢上面谈及的经典的点线模式的低代码表达方式。如文章开头介绍的，依托于Spark、Flink技术构建的低代码工具并不兼容传统小集合数据的工具，但我们也知道，并不是有了大数据，小数据集分析的需求就不存在了。

2024-01-11 17:22:09 998

原创无代码DIY图像检索

本文介绍了如何使用HuggingFists工具，一行代码不写，迅速搭建起图片检索系统。除文中介绍的几个算子外，HuggingFists还内置了很多其它功能的算子，对于喜欢DIY的朋友，可以下载一个玩玩看了。

2024-01-11 08:30:00 1472 2

原创未来-中国要不要有自己的编程语言

这样的编程语言缺乏用户基础，无法得到用户的认可，没有使用者，这样的编程语言发明的再多也没有用。我们可以看到，绝大多数新流行的编程语言一定是对之前的编程语言有了很深刻理解，为其设置了很多程序员喜欢的、区别于其它开发语言的语法糖。除去竞争方面的考虑外，其实更大的原因是中国软件产业发展了几十年了，也应该有一款相对通用的开发语言了，这更多是一种国家软件技术发展水平的体现。特定领域的编程语言由于是面向特定环境的，因此，其可以适当减弱通用语法能力，而加强其专业相关的语法设计。坦白讲，这会是一个非常有争议的话题。

2024-01-09 14:06:52 610

原创 HuggingFists：低代码玩转Hugging Face

HuggingFists正是在这样的需求背景下产生的。从HuggingFists的名字也不难看出，其与HuggingFace一定存在某种渊源。事实是，开发团队为了表达对HuggingFace公司在人工智能领域为所有从业者做出的贡献，故将其命名为”HuggingFists”,并为其设计了如下的图标，以一种中国人的礼仪文化对其表达了诚挚谢意。HuggingFists支持通过低代码的方式使用Hugging Face网站提供的各类模型，方便从业者更便捷的了解模型的能力，从而决策是否进行深入研究和应用。

2024-01-09 08:45:00 1484 2

原创数据科学低代码工具思考--工具起源

数据科学是一门利用数据来学习和发现知识的学科。它是使用科学的方法、流程和系统从不同形式的数据中提取知识的多学科领域。数据科学的目标是通过从数据中提取出有价值的部分来生产数据产品。1962年，数学家 John Tukey 发表了论文《数据分析的未来》(The Future of Data Analysis)，预示了这门学科的诞生；1985年，CF Jeff Wu第一次使用术语数据科学作为统计学的替代名称……

2024-01-03 12:05:53 427

原创 HuggingFists-低代码玩转LLM RAG-准备篇

之前写了几篇关于如何使用HuggingFists系统搭建LLM RAG应用的文章。对于使用者来说，HuggingFists现在能带来两大点帮助。一是能够以低代码的方式快速处理客户的各类存量文档，如Word、Visio、PDF等。这些文档内容多样，其中不乏需要用到OCR等相关技术才能识别和抽取的内容；二是可以帮助使用者快速搭建出LLM RAG的研究环境，可以对比研究各LLM的差异，RAG的应答效果评估以及积累Prompt的相关知识。

2024-01-03 08:45:00 1414 3

原创 HuggingFists-低代码玩转LLM Agent-思考

但如我们之前提到的，用户的可用工具可能非常多，我们无法将这么多的工具都放入Prompt，那样极可能会超出LLM可接受的上下文范围，并且会有巨大的tokens消耗。即LLM规划解决问题的思路，向外部工具集系统查询当前步骤所需的工具，工具集系统返回相关工具集合，LLM按照工具说明推断需要使用的工具，选中工具，明确参数，调用工具……该方案可有效降低Prompt的tokens用量，可更好的实现客户环境中LLM Agent的应用落地，笔者将在后续的文章中，利用HuggingFists系统给出应用示例。

2023-12-17 23:17:10 746

原创疯狂SQL转换系列- SQL for Tencent Cloud VectorDB

TcVector提供的检索接口与SQL语法有一定差异，其SearchParam提供的部分参数可以直接映射为SQL语法的等同语义子句。其OutFields参数为输出结果集的列结构，与SQL语句的Select子句语义相同。但其也有其特殊的查询参数接口，如：针对向量字段匹配的参数接口withVectors等。由于这些概念在SQL中没有对应语义的子句，为不增加语法概念，MOQL Transx将这类接口都以Where子句中的函数形式进行表达。转换的语法效果不一定是最好的，更多是为用户提供一个统一的数据库交互体验。

2023-12-15 10:10:43 585

原创 HuggingFists-低代码玩转LLMRAG(2) --Query(2)

当算子从输入端口接到第一条记录时，会用记录中的信息替换“前置提示”中的变量，然后将其作为Prompt输出给大语言模型。随后，其继续读取输入的记录，替换“提示”中的变量，输出到大语言模型；7.阿里会话大模型：该算子支持了通义千问大模型的多轮会话接口，即每次调用接口时，会将会话过程中的交互记录同步传输给大模型，大模型使用这种短期记忆模式回答相关的问题。很明显，该模式会大量的消耗tokens额度，会超越我们的第一个技术方案，因为每次调用接口都会加上前一次的会话内容，使得请求越来越大。大文本大语言模型提示。

2023-12-15 09:00:00 480

原创 HuggingFists-低代码玩转LLM RAG(2) --Query

由于真实情况下，用户提出的问题是变化的，所以我们可以在这里将问题写成变量的形式。在驱动流程运行时，HuggingFists会将变量替换为运行时指定的具体值，从而可以将不同的问题带入流程。另外，需要注意的是，问题的长短，陈述方式会对检索出的结果有一定的影响。问题列的值使用${question}变量描述，该值与算子1中的变量值一致，会一同被替换。需要特别注意的是，这里的向量类型必须为“查询向量”，在进行文本向量入库时选择的类型为“底库向量”。经确认答案无误，是基于输入的提示信息生成的，不含模型学到的通用知识。

2023-12-13 09:15:00 1348 1

空空如也

空空如也