Python
桂花很香,旭很美
这个作者很懒,什么都没留下…
展开
-
PDF-Extract-Kit (PDF内容抽取开源项目)
PDF文档中包含大量知识信息,例如文本、表格、图像、公式等。此外,PDF的文档布局也相当复杂,页眉、页脚、表格标题、图片标题等等,提取高质量的PDF内容并非易事。布局检测:使用LayoutLMv3模型进行区域检测,如图像表格标题文本等;公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;公式识别:使用UniMERNet进行公式识别;光学字符识别:使用PaddleOCR进行文本识别;注意: 由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此。原创 2024-07-19 11:57:30 · 761 阅读 · 0 评论 -
两张图片合并(右上角添加水印,兼容矢量图)保留原来的颜色
使用了泊松克隆(Poisson Cloning),会根据周围的颜色信息进行颜色调整,使得融合后的区域更加自然,但这也可能导致颜色发生变化。: 进行添加logo(水印)由于使用了。logo 都花了,颜色也不对了。原创 2024-07-08 16:34:31 · 323 阅读 · 0 评论 -
python(opencv2、PIL)将图片透明背景转换成白色背景的两种方法
这两种方法都可以将透明背景转换为任意颜色背景,并支持在任意颜色背景之间进行转换。可以根据具体需求选择合适的工具和方法。通过上述封装函数,可以更方便地将带透明背景的图片转换为白色背景的图片。OpenCV方法函数封装。原创 2024-07-08 14:40:47 · 690 阅读 · 1 评论 -
显卡算力 - json
【代码】显卡算力 - json。原创 2024-07-05 11:24:42 · 82 阅读 · 0 评论 -
Request safe_get 小工具
接口安全获取请求参数小工具( python)原创 2024-07-05 10:53:26 · 153 阅读 · 0 评论 -
无缝合并两张图片(封面右上角添加logo)-- opencv
自己修改对应的路径。这个代码实现的主要函数是cv2.seamlessClone(),这个函数可以根据梯度来调节风格,使得拼接的图像部分不至于那么突兀。原创 2024-07-01 18:18:52 · 369 阅读 · 0 评论 -
python-docx给word 添加封面
【代码】python-docx给word 添加封面。原创 2024-05-31 17:53:28 · 163 阅读 · 0 评论 -
kmeans 练习(numpy版)
【代码】kmeans 笔试题。原创 2024-05-30 21:17:22 · 114 阅读 · 0 评论 -
PyMySQL连接池
胡乱抄的,等待实操检验原创 2024-05-29 18:30:58 · 1039 阅读 · 0 评论 -
python 删除pdf 空白页
【代码】python 删除pdf 空白页。原创 2024-05-29 17:57:26 · 403 阅读 · 0 评论 -
python-docx 在word中指定位置插入图片或表格
docx库add_picture()方法不支持对图片位置的设置。原创 2024-05-22 14:45:41 · 1521 阅读 · 0 评论 -
判断当前系统是linux、windows还是MacOS (python)
在很多情况下,需要在python中获取当前系统的类型,用于判断是unix/windows/mac或者java虚拟机等,python中提供了os.name, sys.platform, platform.system等方式。原创 2024-05-20 10:30:24 · 462 阅读 · 0 评论 -
PaddleCOR安装过程中问题列表
python paddleocr 增加识别速度的方法。切记长度不要超过 960px。原创 2024-05-17 11:24:37 · 317 阅读 · 0 评论 -
OCR版面分析-- PaddleOCR(python 文档解析提取)
当内置模型无法满足需求时,需要使用到自己训练的模型。首先,参照模型导出将检测、分类和识别模型转换为inference模型,然后按照如下方式使用。原创 2024-05-16 18:53:42 · 1701 阅读 · 1 评论 -
版面分析--OCR开源项目记录(备用)
光学字符识别(Optical Charater Recognition, OCR) 是针对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。原创 2024-05-16 18:04:22 · 691 阅读 · 0 评论 -
pdf 版面分析与优化策略
版面分析作为RAG的第一步工作,其效果对于下游工作至关重要。前常见的 PDF 解析方法包括三种基于规则:根据 PDF 的组织特征确定每个部分的规则(风格和内容)缺点:不通用(PDF格式不固定)基于深度学习:目标检查和 OCR 结合的流行解决方案基于多模态大模型:对复杂的结构进行Pasing或提取PDF中的关键信息。原创 2024-05-12 23:09:22 · 1106 阅读 · 0 评论 -
pptx 文件版面分析-- python-pptx(python 文档解析提取)
pptx 解析代码实现。原创 2024-05-06 22:40:17 · 461 阅读 · 0 评论 -
网页html版面分析-- BeauifulSoup(python 文档解析提取)
介绍BeauifulSoup 是一个可以从HTML或XML 文件中提取数据的python库;它能通过转换器实现惯用的文档导航、查找、修改文档的方式。BeauifulSoup是一个基于re开发的解析库,可以提供一些强大的解析功能;使用BeauifulSoup 能够提高提取数据的效率与爬虫开发效率。安装pip install beautifulsoup4 使用1 构建文档树BeauifulSoup 进行文档解析是基于文档树结构来实现的,而文档树则是由BeauifulSoup 中的四个数据对象构原创 2024-05-06 22:33:41 · 1650 阅读 · 0 评论 -
音频文件分析-- whisper(python 文档解析提取)
使用whisper转文本,这里使用的是large-v3版本。原创 2024-05-06 21:51:46 · 385 阅读 · 0 评论 -
大数据--Flink入门
官网:https://flink.apache.orgApache Flink = 数据流上有状态的计算简化流程:既可以做批处理,也可以做流处理Flink提供什么能力:Flink业务场景:Flink基础组件栈Flink基础架构图Flink基础语义状态状态和流式计算如何关联1,无状态的流式计算2,有状态的流式计算分布式时间(time)API状态容错原创 2020-12-02 21:55:31 · 191 阅读 · 1 评论 -
消息队列基本原理和选型对比
消息队列基本原理和选型对比原创 2022-09-12 12:16:26 · 246 阅读 · 0 评论 -
pdf 文件版面分析--PyMuPDF (python 文档解析提取)
PyMuPDF 和Fitz 是用于Python中处理PDF文件的相关模块。Fitz是P有MuPDF的字模块。提供一个简化和封装版本的P有MuPDF功能。原创 2024-05-05 22:50:44 · 1256 阅读 · 5 评论 -
pdf 文件版面分析--pdfplumber (python 文档解析提取)
python 读取文件函数有三种 read()、readline()、readlines()1、它是一个纯 python 第三方库,适合 python 3.x 版本。3、它不支持修改或生成pdf,也不支持对pdf扫描件的处理。2、它用来查看pdf各类信息,能有效提取文本、表格。原创 2024-05-05 20:04:55 · 870 阅读 · 2 评论 -
sql读取数据直接存成pandas、字典
sql读取数据直接存成pandas原创 2023-06-30 11:41:55 · 704 阅读 · 0 评论 -
BM25检索算法 python
BM25(Best Matching 25)是一种经典的信息检索算法,是基于 TF-IDF算法的改进版本,旨在解决、TF-IDF算法的一些不足之处。其被广泛应用于信息检索领域的排名函数,用于估计文档D与用户查询Q之间的相关性。它是一种基于概率检索框架的改进,特别是在处理长文档和短查询时表现出色。BM25的核心思想是基于词频(TF)和逆文档频率(IDF)来,同时还引入了文档的长度信息来计算文档D和查询Q之间的相关性。目前被广泛运用的搜索引擎ES就内置了BM25算法进行全文检索。原创 2024-04-23 13:34:22 · 1859 阅读 · 0 评论 -
reportlab 生成pdf文件 (python)
2 应用场景通过网页动态生成PDF文档大量的报告和数据发布用XML一步生成PDF官网案例3 PLATYPUSPlatypus是“Page Layout and Typography Using Scripts”,是使用脚本的页面布局和印刷术的缩写,这是一个高层次页面布局库,它可以让你通过编程创造复杂的文档,并且毫不费力。Platypus设计的目的是尽可能地将高层布局设计与文档内容分离,比如,段落使用段落格式构造,页面使用页面模板,这样做是有好处的,在仅仅修改几行代码的情况下,包含数百个页面的原创 2024-04-17 18:22:38 · 1582 阅读 · 1 评论 -
在windows中anaconda中安装fasttext (whl 文件安装)
windows 安装fasttext 一直不成功,python 版本3.8网上教程都是下载然后安装,但是这个网站里我没找到哈哈哈。。。原创 2024-04-12 13:26:27 · 715 阅读 · 0 评论 -
pymysql 查询结果转字典dict
【代码】pymysql 查询结果转字典dict。原创 2024-04-12 11:01:28 · 469 阅读 · 1 评论 -
Python docx:在Python中创建和操作Word文档
就是markdown中的list,比如下面的这两个就是无序的,大标题1,2,3…创建一个包含文本、标题、表格、图像和格式的文档。原创 2024-04-10 16:07:59 · 1484 阅读 · 2 评论 -
Knowledge Graphs for RAG -- Adding Relationships to the SEC Knowledge Graph (吴恩达-知识图谱在RAG中的应用 4)
扩展矢量存储定义以接受Cypher查询Cypher查询获取向量相似性搜索的结果,然后以某种方式对其进行修改从一个简单的查询开始,该查询只返回一些额外的文本和搜索结果# 一开始的两个变量 node和score来自向量相似度搜索本身 # 我们将其取出,然后只是取一个字面上的字符串,并将它成为 额外文本(extraText) # 我们将 额外文本与节点文本拼接 返回 # 并返回相似度分数 # 还返回了关于结果节点的元数据 retrieval_query_extra_text = """score,原创 2024-03-25 23:57:43 · 1267 阅读 · 0 评论 -
Knowledge Graphs for RAG -- Constructing a Knowledge Graph from Text Documents (吴恩达-知识图谱在RAG中的应用 3)
将上面的文件构建知识图谱之后就可以对这些金融数据进行问答对话了,但是下载下来是XML 格式,需要对XML进行解析并对数据进行清洗。在调用辅助函数批量创建知识图谱之前,我们需要采取额外的步骤来确保我们不会重复数据。使用Neo4j和LangChain开始最简单的就是Neo4j向量接口。创建辅助函数来使用Neo4j进行向量搜索。打开就长下面这个样子(随便截了几张)目前只有节点,节点之间没有关系。查看所有索引看是否创建成功。原创 2024-03-24 22:15:15 · 1024 阅读 · 0 评论 -
Knowledge Graphs for RAG -- Preparing Text Data for RAG (吴恩达-知识图谱在RAG中的应用 2) jupyter + langchain 版
想要验证索引是否已经创建,可以要求Neo4j直接显示向量索引。现在查看下标语及计算出来的文本编码嵌入。换个question试试。原创 2024-03-24 19:53:33 · 402 阅读 · 0 评论 -
python英文缩写单词扩写
英文缩写词组扩写 python原创 2024-03-21 18:01:29 · 334 阅读 · 0 评论 -
pycontractions 安装失败(language-check 报错)
pycontractions 安装失败,手动安装language-check原创 2024-03-21 16:38:32 · 267 阅读 · 0 评论 -
机器学习 Python库 乱记录
MLflow是一个平台,帮助你从头到尾管理你的机器学习实验,确保可追溯性和可重复性。它提供了一个集中的存储库,用于存储你的代码、数据和模型工件,以及一个跟踪系统,记录你所有的实验,包括超参数、指标和输出。原创 2024-03-14 18:53:49 · 604 阅读 · 1 评论 -
Layer Normalization 算法 和 Batch Normalization 算法的 python实现
【代码】Layer Normalization 算法 和 Batch Normalization 算法的 python实现。原创 2024-03-14 18:26:27 · 366 阅读 · 0 评论 -
自注意力机制函数(SelfAttention)python实现
和Attention类似都是一种注意力机制。不同的是Attention是source对target,输入的source和输出的target内容不同。例如英译中,输入英文,输出中文。而Self-Attention是source对source,是source内部元素之间或者target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力机制。原创 2024-03-14 18:06:48 · 597 阅读 · 2 评论 -
AttributeError: cannot assign module before Module.__init__() call
调用了自定义的类,但是在自定义的类的__init__函数下面没有写super( XXX, self ).init()原创 2024-03-14 18:05:59 · 364 阅读 · 0 评论 -
多头注意力(MultiHeadAttention)python实现
【代码】手撕多头注意力(MultiHeadAttention)python 笔记。原创 2024-03-14 17:57:10 · 555 阅读 · 0 评论 -
单头注意力机制(ScaledDotProductAttention) python实现
输入是query和 key-value,注意力机制首先计算query与每个key的关联性(compatibility),每个关联性作为每个value的权重(weight),各个权重与value的乘积相加得到输出。原创 2024-03-14 17:55:31 · 381 阅读 · 0 评论