数据科学计算
文章平均质量分 88
colorknight
这个作者很懒,什么都没留下…
展开
-
HuggingFists-低代码玩转LLMRAG(2) --Query(2)
当算子从输入端口接到第一条记录时,会用记录中的信息替换“前置提示”中的变量,然后将其作为Prompt输出给大语言模型。随后,其继续读取输入的记录,替换“提示”中的变量,输出到大语言模型;7.阿里会话大模型:该算子支持了通义千问大模型的多轮会话接口,即每次调用接口时,会将会话过程中的交互记录同步传输给大模型,大模型使用这种短期记忆模式回答相关的问题。很明显,该模式会大量的消耗tokens额度,会超越我们的第一个技术方案,因为每次调用接口都会加上前一次的会话内容,使得请求越来越大。大文本大语言模型提示。原创 2023-12-15 09:00:00 · 494 阅读 · 0 评论 -
HuggingFists-低代码玩转LLM RAG(2) --Query
由于真实情况下,用户提出的问题是变化的,所以我们可以在这里将问题写成变量的形式。在驱动流程运行时,HuggingFists会将变量替换为运行时指定的具体值,从而可以将不同的问题带入流程。另外,需要注意的是,问题的长短,陈述方式会对检索出的结果有一定的影响。问题列的值使用${question}变量描述,该值与算子1中的变量值一致,会一同被替换。需要特别注意的是,这里的向量类型必须为“查询向量”,在进行文本向量入库时选择的类型为“底库向量”。经确认答案无误,是基于输入的提示信息生成的,不含模型学到的通用知识。原创 2023-12-13 09:15:00 · 1372 阅读 · 1 评论 -
大型语言模型在实体关系提取中的应用探索
在今年以OpenAI为代表的LLM席卷全球前,笔者尝试了很多开源技术来进行实体关系的识别,发现中文环境下,百度的Paddle所展示出的效果最好的。一种更好的办法是,在提示中给出Json格式的输出样例,以确保LLM按照指定的格式输出结果,方便后续的程序统一处理,更加简单、方便。从目前的实验结果看,使用LLM进行实体关系的识别,较之前的技术,有了很大程度的提升。但在使用LLM的这种技术时,需要注意,不同的LLM在相同的提示和输入下,返回的信息会有不同。这里的输出省去了对平台的扩展整理,但更加符合输入的提示。原创 2023-12-02 21:24:36 · 2049 阅读 · 0 评论 -
HuggingFists-低代码玩转LLMRAG(1) Embedding
RAG,检索增强生成,即大模型LLM在回答问题或生成文本时,通过外挂其他数据源的方式来增强 LLM 的能力。使用外挂数据源检索出相关信息,然后基于这些检索出的信息进行回答或生成文本,从而提高回答的质量。外挂数据源可以是向量数据库、文档数据库、搜索引擎或应用系统等。RAG技术使得LLM在垂直领域应用时,不需要重新训练整个大模型,只需要外挂上相关知识库就可提供问答服务。从而节省了大模型的实施成本,同时提高了大模型在垂直领域的应用的时效性、准确性和安全性。原创 2023-12-02 08:15:00 · 1313 阅读 · 0 评论 -
技术控,看这里,一款支持断点调试的数据科学工具
支持用户通过简单的拖放操作,所见即所得的构建数据处理及数据分析的流程,大大降低了数据科学研究的时间成本和入门门槛,使得专业的学科人员有机会通过简单的学习,就直面学科数据的科学研究工作。若希望达到每一条数据都能够触发断点的调试效果,可将数据集合的大小设置为1,则每个集合每次都只有一条数据,这样就可达到每条数据都可触发条件断点的效果了。原创 2023-05-08 08:30:00 · 552 阅读 · 0 评论 -
数据平民化之路(二)— 实体关系抽取
通过本平台集成的实体抽取算子(不限于Paddle)来进行数据抽取,总体来看,使用操作上比较简单,不需要太多的知识积累,降低了对数据从业人员自身技能的标准,可以快速的应用在社会化数据的挖掘场景中来。举个例子,在政务领域,某市长信箱的负责人员需要每天处理各类意见、建议、投诉、举报等问题,仅靠肉眼很难从如此大量的内容中获取价值信息,这就需要信息抽取技术,来快速提取关键信息,如举报中的人名、时间、地点、问题等,帮助工作人员掌握举报要素,并快速处理。我们的目标就是尽可能得抽取同类关系数据。原创 2023-03-05 22:03:57 · 1941 阅读 · 0 评论 -
数据平民化之路(一)— IOC数据提取
威胁情报的有效性取决于情报数据的广度和深度,主流的服务商会及时更新和同步最新的威胁分析过程,并提供相关的IOC数据,这些数据分散在不同的公众号、网页、博客、微博等平台上。而公开的威胁情报数据大多以报告、图片、网页等形式存在与网络中,对于各个需求组织来说,如果将这些数据快速转化为有价值的情报数据,一方面可以弥补不同服务商间的情报数据差距,快速补齐威胁情报数据,另一方面也节省一部分开支。以上是对于互联网侧公开的源数据进行提取、加工、处理的整个处理过程,可以批量处理含有IOC数据的HTML、图片、PDF等文件。转载 2023-03-02 16:34:52 · 681 阅读 · 0 评论