桂花很香,旭很美-CSDN博客

原创 RAG 评测

生成模块指的是将检索到的文档与查询相结合,形成增强或合合成的输入。这与最终答案或响应的生成不同,后者通常采用端到端的评估方方式。对RAG模型对特定输入生成的最终响应进行评估,涉及模型生成的答案与输入查询的相关性和一致性。

2024-05-23 13:38:51 430

原创 python-docx 在word中指定位置插入图片或表格

docx库add_picture()方法不支持对图片位置的设置。

2024-05-22 14:45:41 278

下载下来是个压缩包，解压一下（我是windows上下载，解压好又拖到ubuntu上去的，你可以直接wget 下载到ubuntu解压）还可以安装中文离线帮助文件中的所有deb包，哈哈，我没装所以后面转的中文pdf乱码了，不过后面用其他方法弄好了。Libcairo是一个用于创建二维矢量图形的库，是许多图形库（如GTK，Pango，rsvg等）的依赖项。由于 linux 默认没有安装中文字体，所以导出有中文的文件会导致中文乱码。linux 命令改成自己安装的版本，我的是7.6。安装主安装程序的所有deb包。

2024-05-21 17:00:05 632

原创判断当前系统是linux、windows还是MacOS (python)

在很多情况下，需要在python中获取当前系统的类型，用于判断是unix/windows/mac或者java虚拟机等，python中提供了os.name， sys.platform， platform.system等方式。

2024-05-20 10:30:24 244

原创 PaddleCOR安装过程中问题列表

python paddleocr 增加识别速度的方法。切记长度不要超过 960px。

2024-05-17 11:24:37 256

原创 OCR版面分析-- PaddleOCR（python 文档解析提取）

当内置模型无法满足需求时，需要使用到自己训练的模型。首先，参照模型导出将检测、分类和识别模型转换为inference模型，然后按照如下方式使用。

2024-05-16 18:53:42 1018

原创版面分析--OCR开源项目记录（备用）

光学字符识别（Optical Charater Recognition, OCR）是针对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

2024-05-16 18:04:22 584

原创 prompt工程策略（四：仅使用 LLM 分析数据集，不使用插件或代码）

原文：我是如何赢得GPT-4提示工程大赛冠军的原文的原文： How I Won Singapore’s GPT-4 Prompt Engineering CompetitionLLM 执行准确的，这使得它们需要对数据集进行的任务，比如：LLM 擅长识别和。这种能力源自 LLM 训练时使用的大量多样化数据，这让它们可以识别出可能并不显而易见的复杂模式。真实世界 Kaggle 数据集，是为客户个性分析任务收集整理的，其中的任务目标是，以更好地了解客户。取用一个 LLM 的，其中包含和。之后，用于分析的数据集

2024-05-14 16:32:54 588

原创 prompt工程策略（三：使用 LLM 防护围栏创建系统提示）

在这个案例中，聊天中的每个用户 prompt 都只是你希望得到文本解答的问题。在上面的 System Prompt 示例中，任务被定义为仅使用特定的文本进行问答，并指示 LLM 以 {“Question”: “Answer”} 的格式进行响应。在一组聊天中，每一次你都要提供一个新的 prompt，System Prompts 的作用就像是一个 LLM 会自动应用的过滤器。现在，每个用户 prompt 中都既包含执行问答所基于的文本，也包含所要回答的问题。这三个术语，而且很多时候它们的意思似乎差不多。

2024-05-14 15:49:34 986

原创 prompt工程策略（二：使用分隔符为 prompt 设置分节）

分隔符是一种特殊 token，可帮助 LLM 分辨 prompt 的哪些部分应被视为单个含义单元。这很重要，因为输入 LLM 的整个 prompt是单个的token 长序列。分隔符能将 prompt 中不同部分隔离开，从而为这个 token 序列提供结构，让其中各个部分能被区别对待（重点对待）。

2024-05-14 14:27:09 436

原创 prompt工程策略（一：使用 CO-STAR 框架来搭建 prompt 的结构）

为了让 LLM 给出最优响应，为 prompt 设置有效的结构至关重要。CO-STAR框架是一种可以方便用于设计prompt 结构的模板。该模板考虑了会影响 LLM 响应的有效性和相关性的方方面面，从而有助于得到更优的响应。上下文提供任务有关背景信息理解场景响应相关目标定义任务响应具体任务风格指定写作风格引导语气态度响应符合情绪上下文受众确定目标受众响应提供响应格式列表JSON专业报告。

2024-05-14 13:57:46 984

原创 pdf 版面分析与优化策略

版面分析作为RAG的第一步工作，其效果对于下游工作至关重要。前常见的 PDF 解析方法包括三种基于规则：根据 PDF 的组织特征确定每个部分的规则（风格和内容）缺点：不通用（PDF格式不固定）基于深度学习：目标检查和 OCR 结合的流行解决方案基于多模态大模型：对复杂的结构进行Pasing或提取PDF中的关键信息。

2024-05-12 23:09:22 850

原创使用 DPO 微调 Llama 2 （TRL）

Direct Preference Optimization（DPO），通过直接优化语言模型以符合人类偏好，无需显性奖励模型或强化学习。该算法隐式地优化与现有 RLHF 算法相同的目标（奖励最大化，带有 KL 散度约束），但易于实现且容易训练。

2024-05-07 17:10:54 927

原创 pptx 文件版面分析-- python-pptx（python 文档解析提取）

pptx 解析代码实现。

2024-05-06 22:40:17 328

原创网页html版面分析-- BeauifulSoup（python 文档解析提取）

介绍BeauifulSoup 是一个可以从HTML或XML 文件中提取数据的python库；它能通过转换器实现惯用的文档导航、查找、修改文档的方式。BeauifulSoup是一个基于re开发的解析库，可以提供一些强大的解析功能；使用BeauifulSoup 能够提高提取数据的效率与爬虫开发效率。安装pip install beautifulsoup4 使用1 构建文档树BeauifulSoup 进行文档解析是基于文档树结构来实现的，而文档树则是由BeauifulSoup 中的四个数据对象构

2024-05-06 22:33:41 523

原创音频文件分析-- whisper（python 文档解析提取）

使用whisper转文本，这里使用的是large-v3版本。

2024-05-06 21:51:46 346

原创 pdf 文件版面分析--PyMuPDF （python 文档解析提取）

PyMuPDF 和Fitz 是用于Python中处理PDF文件的相关模块。Fitz是P有MuPDF的字模块。提供一个简化和封装版本的P有MuPDF功能。

2024-05-05 22:50:44 678 3

原创 pdf 文件版面分析--pdfplumber （python 文档解析提取）

python 读取文件函数有三种 read()、readline()、readlines()1、它是一个纯 python 第三方库，适合 python 3.x 版本。3、它不支持修改或生成pdf，也不支持对pdf扫描件的处理。2、它用来查看pdf各类信息，能有效提取文本、表格。

2024-05-05 20:04:55 480 2

原创 BM25检索算法 python

BM25（Best Matching 25）是一种经典的信息检索算法，是基于 TF-IDF算法的改进版本，旨在解决、TF-IDF算法的一些不足之处。其被广泛应用于信息检索领域的排名函数，用于估计文档D与用户查询Q之间的相关性。它是一种基于概率检索框架的改进，特别是在处理长文档和短查询时表现出色。BM25的核心思想是基于词频(TF)和逆文档频率(IDF)来,同时还引入了文档的长度信息来计算文档D和查询Q之间的相关性。目前被广泛运用的搜索引擎ES就内置了BM25算法进行全文检索。

2024-04-23 13:34:22 1250

原创 reportlab 生成pdf文件（python）

2 应用场景通过网页动态生成PDF文档大量的报告和数据发布用XML一步生成PDF官网案例3 PLATYPUSPlatypus是“Page Layout and Typography Using Scripts”，是使用脚本的页面布局和印刷术的缩写，这是一个高层次页面布局库，它可以让你通过编程创造复杂的文档，并且毫不费力。Platypus设计的目的是尽可能地将高层布局设计与文档内容分离，比如，段落使用段落格式构造，页面使用页面模板，这样做是有好处的，在仅仅修改几行代码的情况下，包含数百个页面的

2024-04-17 18:22:38 1177 1

原创在windows中anaconda中安装fasttext (whl 文件安装)

windows 安装fasttext 一直不成功，python 版本3.8网上教程都是下载然后安装，但是这个网站里我没找到哈哈哈。。。

2024-04-12 13:26:27 358

原创 pymysql 查询结果转字典dict

【代码】pymysql 查询结果转字典dict。

2024-04-12 11:01:28 285

原创 Python docx：在Python中创建和操作Word文档

就是markdown中的list,比如下面的这两个就是无序的，大标题1，2，3…创建一个包含文本、标题、表格、图像和格式的文档。

2024-04-10 16:07:59 843 1

原创 Knowledge Graphs for RAG -- Chatting with the SEC Knowledge Graph (吴恩达-知识图谱在RAG中的应用 6)

拥有公司股票的经理提交了一些被分成块处理的表单。现在经理和公司都与地址相连接。公司之间那些比较近？只需要在图中跟踪指针（pointers箭头）即可有多少投资公司在他们所投资的公司附近？有多少投资公司和他们所投资的公司在同一个城市？

2024-04-09 23:01:48 1355 3

原创 conda创建环境报错 conda.exceptions.UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda/pkg

【代码】conda创建环境报错 conda.exceptions.UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda/pkg。

2024-04-09 15:15:10 489 3

原创常见语种简称

完整语种列表

2024-04-08 13:48:02 121 1

原创 Knowledge Graphs for RAG --Expanding the SEC Knowledge Graph (吴恩达-知识图谱在RAG中的应用 5)

expanding-the-sec-knowledge-graph1.1 读取新的表格 Form13投资管理公司必须通过提交一份名为Form 13的文件向美国证券交易委员会报告其对公司的投资为已投资NetApp的经理加载一组Form 13 看一下数据格式数据原始表格以XML格式存在，在数据准备过程中，从XML中提取特定字段，并将其添加为CSV文件中的一行。1.2.1 查看一下前五行数据可以看到这些公司每个都投资与同一家公司：NETAPP所有这些管理公司都有不同的名称，但他们都是NE

2024-03-30 15:06:25 1111

原创大模型微调典型评价指标简记

在大模型微调过程中，评价指标的设定是为了精确衡量模型在特定任务上的表现，以便判断微调的效果和指导进一步的优化。选择合适的评价指标至关重要，因为它们直接影响到对模型性能的理解、比较和决策。确定微调任务的具体类型，如分类、回归、序列标注、问答、生成任务等。每种任务类型有其适用的一组或几组核心评价指标。

2024-03-30 11:55:04 477

原创 ModuleNotFoundError: No module named ‘langchain.schema‘

【代码】ModuleNotFoundError: No module named ‘langchain.schema‘

2024-03-28 19:01:01 247

原创本地项目内网穿透可公网访问包（备用）

（国外，需要有国外服务器然后做IP和端口转接，可以配合samba配置共享文件夹）（国外，免费版限速，官网注册安装，照着教程做就可以了）

2024-03-26 13:27:50 168

原创 Knowledge Graphs for RAG -- Adding Relationships to the SEC Knowledge Graph (吴恩达-知识图谱在RAG中的应用 4)

扩展矢量存储定义以接受Cypher查询Cypher查询获取向量相似性搜索的结果，然后以某种方式对其进行修改从一个简单的查询开始，该查询只返回一些额外的文本和搜索结果# 一开始的两个变量 node和score来自向量相似度搜索本身 # 我们将其取出，然后只是取一个字面上的字符串，并将它成为额外文本（extraText） # 我们将额外文本与节点文本拼接返回 # 并返回相似度分数 # 还返回了关于结果节点的元数据 retrieval_query_extra_text = """score,

2024-03-25 23:57:43 1220

原创 Knowledge Graphs for RAG -- Constructing a Knowledge Graph from Text Documents (吴恩达-知识图谱在RAG中的应用 3)

将上面的文件构建知识图谱之后就可以对这些金融数据进行问答对话了，但是下载下来是XML 格式，需要对XML进行解析并对数据进行清洗。在调用辅助函数批量创建知识图谱之前，我们需要采取额外的步骤来确保我们不会重复数据。使用Neo4j和LangChain开始最简单的就是Neo4j向量接口。创建辅助函数来使用Neo4j进行向量搜索。打开就长下面这个样子（随便截了几张）目前只有节点，节点之间没有关系。查看所有索引看是否创建成功。

2024-03-24 22:15:15 924

原创 Knowledge Graphs for RAG -- Preparing Text Data for RAG (吴恩达-知识图谱在RAG中的应用 2) jupyter + langchain 版

想要验证索引是否已经创建，可以要求Neo4j直接显示向量索引。现在查看下标语及计算出来的文本编码嵌入。换个question试试。

2024-03-24 19:53:33 356

原创 Knowledge Graphs for RAG -- Query Knowledge Graphs (吴恩达-知识图谱在RAG中的应用 1) jupyter + langchain 版

langchain 知识图谱start

2024-03-24 17:52:32 496

原创 python英文缩写单词扩写

英文缩写词组扩写 python

2024-03-21 18:01:29 318

原创 pycontractions 安装失败（language-check 报错）

pycontractions 安装失败，手动安装language-check

2024-03-21 16:38:32 258

原创机器学习 Python库乱记录

MLflow是一个平台，帮助你从头到尾管理你的机器学习实验，确保可追溯性和可重复性。它提供了一个集中的存储库，用于存储你的代码、数据和模型工件，以及一个跟踪系统，记录你所有的实验，包括超参数、指标和输出。

2024-03-14 18:53:49 600 1

原创 Layer Normalization 算法和 Batch Normalization 算法的 python实现

【代码】Layer Normalization 算法和 Batch Normalization 算法的 python实现。

2024-03-14 18:26:27 347

原创自注意力机制函数（SelfAttention）python实现

和Attention类似都是一种注意力机制。不同的是Attention是source对target，输入的source和输出的target内容不同。例如英译中，输入英文，输出中文。而Self-Attention是source对source，是source内部元素之间或者target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力机制。

2024-03-14 18:06:48 476

原创 AttributeError: cannot assign module before Module.init() call

调用了自定义的类，但是在自定义的类的__init__函数下面没有写super( XXX, self ).init()

2024-03-14 18:05:59 288

122.0.6261.57/win64/chromedriver-win64.zip

Windows10 修改samba 445 端口为4455 脚本

HashMapTest.java

IDEA快捷键.pdf

ConstantDemo.java

空空如也