自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 资源 (6)
  • 收藏
  • 关注

原创 【LLM之Data】SKYSCRIPT-100M论文阅读笔记

本研究的目标是构建一个大规模的剧本-拍摄脚本配对数据集(SkyScript-100M),涵盖了10亿对剧本与拍摄脚本。这一数据集旨在支持短剧生成模型的开发,通过丰富的多模态信息(如场景描述、人物关系、镜头信息等)提升模型在生成短剧时的表现。本研究不仅探索了如何自动化生成高质量的短剧剧本,还提出了一种新的短剧生成范式。

2024-08-24 15:32:21 999

原创 【LLM之Data】Persona Hub论文阅读笔记

本文提出了一种基于“角色驱动”的合成数据生成方法,旨在通过构建一个包含10亿个角色的“Persona Hub”来从不同的视角生成多样化的数据。这些角色作为世界知识的分布式载体,能够指导LLM生成与之相匹配的多样性数据。研究目标包括展示该方法在多种场景(如数学问题、逻辑推理问题、用户指令、知识丰富文本、游戏NPC及工具开发)中的应用,并探讨其在推动LLM研究与应用中的潜在价值。

2024-08-22 16:44:05 743

原创 【LLM之Base Model】Weaver论文阅读笔记

Weaver模型系列旨在通过预训练和特定领域的对齐,使LLMs在创意和专业写作方面表现得更加人性化和多样化。Weaver通过引入一系列新的数据合成和对齐方法,使其能够生成更具创造性和符合人类风格的文本,从而满足内容创作的多样需求。

2024-08-19 11:00:24 696

原创 【LLM之RAG】GraphRAG论文阅读笔记

本文探讨了大型语言模型(LLM)如何通过从外部知识源检索相关信息来回答关于私有或之前未见过的文档集合的问题。特别指出,传统的检索增强生成(RAG)系统在处理全局问题时存在局限性,例如问整个文本语料库的主题是什么,因为这些问题本质上是查询焦点的摘要(QFS)任务,而不仅仅是一个显式的检索任务。

2024-08-14 19:25:12 1094 1

原创 【LLM之Agent】ReAct论文阅读笔记

论文介绍了 "ReAct" 范式,该范式旨在融合推理和行动的功能,通过让大型语言模型(LLMs)生成既包括言语推理轨迹又包括行动序列的输出,解决多种语言推理和决策任务。这种方法允许模型在与外部环境(如Wikipedia)交互时动态地进行推理和调整计划。

2024-07-10 10:01:48 784

原创 【LLM之KG】CoK论文阅读笔记

本研究提出了一种新的链式知识(Chain-of-Knowledge, CoK)提示方法,通过引导LLMs生成明确的知识证据来提高推理能力。具体来说,CoK提示由证据三元组(CoK-ET)和解释提示(CoK-EH)组成,旨在生成明确的知识证据和解释,以支持逐步思考过程。同时,引入了F2验证方法来评估推理链的真实性和可靠性。

2024-06-23 22:23:27 850 3

原创 【LLM之KG】KoPA论文阅读笔记

本文的研究目标是探索如何将结构信息融入大型语言模型(LLM),以提高其在**知识图谱补全**任务中的表现。具体来说,是通过结构嵌入预训练和知识前缀适配器(KoPA)来实现结构信息的有效利用。

2024-06-22 20:43:51 802

原创 【LLM之KG】TOG论文阅读笔记

本文针对大型语言模型(LLMs)在处理深度和负责任的推理任务时常见的幻觉问题进行研究,特别是在需要**深层次逻辑链**和**多跳知识推理**的场景中。为了解决这些问题,作者提出通过结合外部知识图谱(KGs)来增强LLMs的推理能力。

2024-06-21 11:22:13 1005 1

原创 【LLM之NL2SQL】DAIL-SQL论文阅读笔记

该研究旨在提供一个全面、系统的评估框架,用于评估基于大型语言模型(LLM)的Text-to-SQL技术。特别强调了不同的提示工程策略的有效性和效率,以及开源LLM的可行性。研究的重点是评估在零样本和少样本场景下的不同问题表示方式,样本选择和组织策略的效果。

2024-06-20 15:47:14 1120

原创 【LLM之NL2SQL】DIN-SQL论文阅读笔记

研究关注于使用大型语言模型(LLMs)进行复杂的Text-to-SQL任务,目标是弥补精调模型与基于提示的方法之间的差距。早期系统依赖于特定领域或基于规则的方法,而最近的系统利用深度神经网络模型和LLMs,以提高领域独立性和效率。

2024-06-18 12:41:00 1042 1

原创 【LLM之RAG】RAT论文阅读笔记

近年来,大型语言模型(LLMs)在各种自然语言推理任务上取得了显著进展,尤其是在结合大规模模型和复杂提示策略(如链式思维提示(CoT))时。然而,LLMs 在推理的事实准确性方面存在越来越多的担忧,特别是在零样本 CoT 提示和需要多步骤和上下文感知推理的长视野生成任务中。这些任务包括代码生成、任务规划、数学推理等,需要事实正确的中间思维过程来成功完成任务。

2024-06-17 10:25:58 1188 1

原创 【LLM之RAG】Adaptive-RAG论文阅读笔记

文章介绍了大型语言模型(LLMs)在处理各种复杂查询时的挑战,特别是在不同复杂性的查询处理上可能导致不必要的计算开销或处理不足的问题。为了解决这一问题,文章提出了一种自适应的查询处理框架,**动态选择最合适的策略**,从而提高整体效率和准确性 。

2024-06-14 10:18:11 1322

原创 【LLM之RAG】Self-RAG论文阅读笔记

尽管大型语言模型(LLM)展示出了显著的能力,但它们在生成回答时经常包含事实错误,因为它们仅依赖于封装在模型中的参数知识。增强型检索生成(Retrieval-Augmented Generation, RAG)是一种方法,通过检索相关知识来减少此类问题。然而,无论是否需要检索,或检索的段落是否相关,不加选择地检索和整合固定数量的检索段落会降低语言模型的多功能性,或可能导致生成无用的回答。​

2024-06-13 10:28:56 896

原创 【LLM之RAG】KG_RAG论文阅读笔记

该研究集中于通过将生物医学知识图谱(KG)与大型语言模型(LLMs)集成,以增强LLMs在生物医学应用中的表现。研究的动机源于LLMs在生成精确内容方面面临的挑战,尤其是在像生物医学这样准确性至关重要的领域。LLMs在广泛的通用文本上的传统训练并不总是能够在专业领域中转化为高准确性,这是因为模型尽管语言结构正确,却仍会生成错误信息(即“幻觉”)。

2024-06-12 10:23:34 1289 1

原创 【LLM之RAG】RAFT论文阅读笔记

论文针对的主要问题是如何将预训练的大型语言模型(LLMs)适应特定领域的检索增强生成(RAG)。这些模型通常在广泛的文本数据上进行预训练,已经表现出在广义知识推理任务上的优越性能。然而,在特定领域,如法律、医学或最新新闻等,普遍的知识推理不足以满足精确性的要求,因此需要对这些模型进行适应性调整以增强其在这些领域内的应用性能。

2024-06-11 18:11:05 1244 1

原创 【LLM之基座】qwen 14b-4int 部署踩坑

由于卡只有24G,qwen14b 原生需要 30GB,按照官方团队的说法,他们用的量化方案是基于AutoGPTQ的,而且根据评测,量化之后的模型效果在几乎没有损失的情况下,显存降低到13GB,妥妥穷狗福音,说干就干。

2023-11-17 14:28:20 4446 6

原创 SDMG-R模型学习笔记

商汤出的算法,用于KIE,集成在mmocr包里,需要搭配mmcv一起使用,题外话,mmcv用了hook编程,调试起来还是蛮难的,以后有空再分享下mmcv的框架逻辑。模型结构整体结构可分为三个模块:双模态融合模块、图推理模块和分类模块三个。模型的输入数据由图片、对应文本检测坐标区域、对应文本区域的文本内容构成,如:{"file_name": "xxxx.jpg", "height": 1191, "width": 1685, "annotations": [{"box": [566, 113, .

2022-02-19 10:25:24 3429 2

原创 mysql规范

数据库表设置规范字符集一般选择utf8mb4(MySQL5.5.3以后支持),因为utf8mb4是utf8的超集并完全兼容utf8,能够用四个字节存储更多的字符排序规则一般选择utf8mb4_general_ci,比较和排序的时候更快一个项目一个数据库,多个项目慎用同一个数据库表存储引擎使用InnoDB数据库表命名规范所有库名称必须使用小写字母并用下划线分割,库名与应用名称尽量一致表名称必须使用小写字母或数字并用下划线分割,但是禁止出现数字开头,禁止两个下划线中间只出现数字,如:l

2021-07-01 21:19:56 183

原创 AllenNLP框架学习笔记(数据篇之tokenizers)

tokenizers是数据模块中的一个子模块,在里面主要包含了token与tokenizer的定义和使用,现在做一个简单的介绍,描述字符串是如何载入到TextFields中的。Token简单的token抽象,其属性包括文本,偏移量,pos tag,依存关系等,tokenizer的输出被定义为一连串(list)的Token。Tokenizer分词器类,Tokenizers将字符串分割成独立的token,如果需要自己定义一个分词类的话,通过重写其tokenize方法便可以实现,可分为word-lev.

2021-04-24 18:11:10 1722 2

原创 白话KAFKA之基本概念

上一篇文章提到在不依赖kafka的情况下,如何直接使用python实现生产消费模型,但是也只适用于数据量不是特别大而且对于数据处理的实时性没有那么高的场景,要真正实现大数据的生产消费,那咱不得不聊聊kafka了。由于kafka可以聊的点不少,所以开个新坑写一个系列吧,本篇就先大致介绍一下kafka的基本情况。一个睡前小故事周末睡觉前无聊的刷着手机,某宝网APP突然蹦出来一条消息“为了回馈老客户,猫条买一送一,活动仅限今天!”。买一送一还有这种好事,那我可不能错过!忍不住立马点了去。于是选了两个最香款.

2021-04-24 11:46:27 226

原创 python设计模式之生成器模式

生成器模式是一种创建型设计模式, 使你能够分步骤创建复杂对象,生成器不允许其他对象访问正在创建中的产品。 该模式允许你使用相同的创建代码生成不同类型和形式的对象。又名建造者模式。为什么需要?简化复杂的构造函数。只有当产品较为复杂且需要详细配置时,使用生成器模式才有意义。生成器与其他创建型模式的不同之处在于:它让你能创建不遵循相同接口的产品。应用场景使用生成器模式可避免 “重叠构造函数 (telescopic constructor)” 的出现。当希望使用代码创建不同形式的产品 (例如石头或木.

2021-03-30 21:23:05 568 5

原创 docker进阶速查

介绍关于docker的一些进阶内容,如docker file 中的关键词,后期维护等。dockerfile中的常用关键词关键词描述FROM构建的新镜像是基于哪个镜像MAINTAINER镜像维护者姓名或邮箱地址RUN构建镜像时运行的shell命令COPY拷贝文件或目录到镜像中ADD更高级的复制文件,可以自动解压缩ENV设置环境变量ARG构建参数,类似于env,但是只在构建镜像时有用USER指定用户EXPOSE只是声明.

2021-03-25 20:54:09 112

原创 AllenNLP框架学习笔记(模型篇之初始化与正则化)

初始化在某些情况下,用户想以特定方式初始化模型参数(例如,使用Xavier方法初始化)。不用担心, AllenNLP在包含初始化逻辑的模型构造函数中提供了一种方便的抽象方法,该方法使得基于regex匹配的参数名应用到特定的初始化变得简单。为了初始化单个模型参数,可以在AllenNLP中使用Initializers,Initializers基本上只是Python方法,它们接受张量参数并对其应用一些特定的操作。在大多数情况下,它们只是PyTorch的initializers(在torch.nn.init中的

2021-03-24 20:44:02 394 2

原创 AllenNLP框架学习笔记(模型篇之保存与加载)

通常,用户想在磁盘上保存并加载经过训练的模型。这就是使用AllenNLP的配置文件非常有用的地方,因为加载模型所需的所有内容,包括权重、配置和词汇表,都可以存储在单个tar文件中。在本章中,将介绍三种对模型进行保存与加载的方式。手动保存与加载为了正确地保存和加载AllenNLP模型,我们一般需要有如下文件:模型配置(用于训练模型的规范)模型权重(模型的训练参数)词汇表在AllenNLP中,模型配置由Params类管理,可以使用to_file()方法保存到磁盘。用户可以使用model.st.

2021-03-13 11:01:26 1635

原创 python编码经验

python推荐使用3.6以上版本,参考google编码风格总结的个人编码经验。编码原则DRY(don’t repeat yourself),不要总是重复自己的代码,抽象问题,提高代码的复用性PIE(Program Intently and Expressively), 意图清楚而且表达明确地编程ETC(easy to change),代码易于变更,降低模块之间的耦合度,遵循良好的设计模式命名规范1.函数使用小写字母+下划线命名,如feature_selection_by_filter,.

2021-03-09 20:14:55 190

原创 AllenNLP框架学习笔记(模型篇之一)

通常,模型在AllenNLP和NLP应用程序中起着核心作用。它们实现将输入转换为输出所执行的计算,并保留通过训练得到优化的参数。在本节中,我们将深入探讨AllenNLP模型的内部工作原理,并提供有关的深入指南。Model 与 Model.forward()AllenNLP使用Model类来实现NLP模型。Model的子类是torch.nn.Module,这意味着每个AllenNLP模型也是一个PyTorch的Module,用户可以将其用作其他任何PyTorch模块,例如,调用模型(调用__call .

2021-02-18 20:17:06 734

原创 AllenNLP框架学习笔记(数据篇之二)

本篇对AllenNLP中关于数据中的 Datasets,vocabulary,DataLoader,sampler做简单的介绍。Datasets数据集被表示为AllennlpDataset对象,是instance集合的一个简单封装,并且与PyTorch的Dataset基本上相同,不同之处在于它还支持某些额外的功能,例如词汇索引。 AllenNLP的DatasetReader在完成读取数据集后返回AllennlpDataset()或者AllennlpLazyDataset()。Vocabulary.

2021-02-06 11:00:35 927

原创 AllenNLP框架学习笔记(数据篇之一)

本文对AllenNLP中关于数据的基本概念 Fields,Instances做一个简单的介绍,同时对Dataset readers类做较为详细的介绍。Fields 与 InstancesFields,即字段, 是Instances的组成部分,在将字段转换为ID并进行批处理和填充后,它们会作为输入或输出转换为模型中的张量。AllenNLP中有多种类型的字段,具体取决于它们表示的数据类型。其中,最重要的是TextFields,它代表一段分词后的文本,这个在后续章节中将会详细描述。其他常用字段类型包括.

2021-01-30 13:42:39 1310 2

原创 AllenNLP框架学习笔记(入门篇)

最近接触到一个很棒的自然语言处理工具——AllenNLP,解决了很多在自然语言处理过程中遇到的痛点问题,开发这个工具也是鼎鼎大名的A2I实验室,然后就去拜读了他们在github上分享的文档(当然,对于本英语渣来说,如果不是中文资料实在是比较少,是不会开启左百度右谷歌模式的),发觉这个框架!真tm棒!后面在打造自己的工作箱时,越发觉得allennlp的工程思维值得每个nlper学习,因此决定深度去阅读其中优雅的代码以及官方文档,并将其记录下来。为什么值得研究工欲善其事,必先利器。在进行自然语言处理的过.

2021-01-25 19:20:02 2924 9

原创 python设计模式之单例模式

随着维护的代码量越来越多,秃然发现自己写代码都不设计一下,结果到后期需求有变动,代码需要进行扩展或者逻辑变动的时候,看着自己之前写的shit般的代码,感叹着逝去的青春。所以,设计模式是很有必要学习的,以后会陆陆续续更新自己学习到设计模型并结合项目经验记录下用法。先从创建型模式开始,第一篇为单例模式。什么是单例模式?让你能够保证一个类只有一个实例, 并提供一个访问该实例的全局节点。为什么需要?控制某些共享资源(如数据库或者文件)的访问权限保护该实例不被其他代码覆盖应用场景如果程序中的某.

2020-11-19 20:38:58 166

原创 python用三种方式实现生产消费模型(进程,线程,协程)

最近用kafka用的比较多,因此对生产消费模型有了不小的兴趣,就想着,如果在没有搭建kafka的情况下,该怎么实现生产消费模型呢?前菜进程:是系统进行资源分配的最小单位,它是程序执行时的一个实例。程序运行时系统就会创建一个进程,并为它分配资源,然后把该进程放入进程就绪队列,进程调度器选中它的时候就会为它分配CPU时间,程序开始真正运行。每个进程都有自己的独立内存空间,不同进程通过进程间通信来通信。线程:是程序执行时的最小单位,它是进程的一个执行流,是CPU调度和分派的基本单位,一个进程至少包含一个.

2020-07-04 18:07:59 773

原创 python 实现字典排序(多条件排序规则,含升序降序)

在现实场景中,存在多条件的排序规则,如,在一批学生中,先按照成绩降序排序,再按照出生日期降序(出生日越晚的年龄越小,越聪明),最后再按照学号升序排列。本文实现两种排序方法,以供参考。测试数据:test_data = [{'name': "小明", 'student_id': 16, 'score': 97, 'birthday': date_to_str('1996-10-24 18:00:00', 0)}, {'name': "小花", 'student_id': 19,.

2020-05-18 13:51:09 6610 1

原创 使用python将excel单元格中指定文字加粗标红

import xlsxwriterout_path = 'test.xlsx'workbook = xlsxwriter.Workbook(out_path)worksheet = workbook.add_worksheet(u'sheet1')bold_red = workbook.add_format({'bold': True, 'color': 'red'})workshee...

2020-03-02 11:33:06 9457 2

原创 python 拼接误换行句子代码

有些文本在解析出来的时候,换行出现了问题,比如:“今天天气很好啊\n所以我出来玩了。”因此我们需要将误换行的句子拼接起来。一开始打算是用递归的思想去做,后面发现python的list也可以用pop,就直接pop更方便了,时间复杂度的话就是O(n)。import resentence_list = ['大家按时打卡的。', '的空间马上到', '肯定撒老大', '健康大使的。','打卡十...

2019-12-15 19:22:50 568

原创 docker命令速查

.解决启动容器后立马退出的问题docker run -dit --name <container_name> <image_id> /bin/bashdocker server gave HTTP response to HTTPS client 问题处理办法在/etc/docker下,创建daemon.json文件,写入:{ "insecure-regi...

2019-12-11 17:42:21 321

原创 使用python将doc文件转为utf8编码格式的txt

最近花了点时间看了会doc的转换,果然官方文档最好用,代码如下:import osimport sysimport fnmatchimport win32com.clientPATH = os.path.abspath(os.path.dirname(sys.argv[0]))doc_path = PATH + '/data/doc/'txt_path = PATH + '/dat...

2019-09-19 14:01:22 2832 2

原创 使用SimHash算法实现千万级文本数据去重插入(python版代码)

前言,最近在搞大量数据插入MySQL的时候悲催的发现速度越来越慢,因为我的数据来多个源,使用流式更新,而且产品要求在这个表里面不能有数据重复,划重点!衡量数据是否重复的字段是文本内容,字段类型是text,…那么问题来了,如何在千万级数据量实现去重插入呢?而且要快!自杀式做法1.管它重复不重复,先插入了再说2.使用group by 先对不能重复的字段进行分组,在用一个having coun...

2019-06-18 16:28:13 12281 22

原创 sentencePiece入门小结

环境搭建1.安装C++源码版step1 安装环境依赖ubuntu系统:sudo apt-get install cmake build-essential pkg-config libgoogle-perftools-devcentos系统:sudo yum install cmake pkg-config gperfools-devel注:如果之前安装过cmake,但是3.1...

2019-06-10 16:53:32 15282 9

原创 python中使用正则表达式去除中文文本多余空格,英文之间的保留

需求在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:input:我今天 赚了 10 个亿,老百姓very happy。output:我今天赚了10个亿,老百姓very happy。代码def clean_space(text): """" 处理多余的空格 """

2019-03-04 20:34:43 7978

原创 windows conda虚拟环境下配置cx_Oracle踩坑小结

前言:如果说本来安装cx_Oracle就是一个历经千辛万苦的过程,那么我这次安装的过程简直是巨坑无比了,现总结如下。限制环境系统:windows 64python:在anaconda3下的创建的虚拟环境,2.7版本,64位其他:已装了PLSQL,oracle clinet是32位的…好,那么问题来了,网上资料说cx_Oracle要和python版本和oracle clinet一致,那...

2019-01-16 20:21:35 929

cx_Oracle轮子

windows 64位,python2.7版本,cx_Oracle安装的轮子,使用pip install <轮子名>即可安装

2019-01-16

webpy以及其依赖离线安装包

里面包含webpy-master,cheroot-6.5.2-py2.py3-none-any,more_itertools-4.3.0-py2-none-any 适用于python2.7版本安装

2018-09-08

selenium模拟登录新浪微博.

内含火狐驱动,和phantomjs无壳浏览器,针对现新浪微博的登录界面有用

2017-01-13

五子棋AI html

html版五子棋,算法在js里。人工智能的第一小步,可做练手demo

2017-01-12

使用selenium模拟登录新浪

含代码,火狐驱动,phantomjs

2017-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除