冰__蓝-CSDN博客

原创 PngImagePlugin.py 日志打印问题

PIL.PngImagePlugin.py 脚本日志打印信息问题

2022-10-19 14:55:17 1440

原创 Python处理PDF——PyMuPDF中图像的使用（2）

文章目录1、从文档页面生成图像page.get_pixmap()参数2、提升图像分辨率3、创建部分像素贴图（`Clips`）4、PDF文档提取图像如何获取`xref`的值呢？本文记录PyMuPDF库中有关Image的使用方法关于PyMuPDF库的安装、介绍及基本使用可参考博客：Python处理PDF——PyMuPDF的安装与使用(1)_ling620的专栏-CSDN博客1、从文档页面生成图像这个脚本将获取一个文档文件名，并将每个页面生成一个PNG文件保存在脚本目录中。文档可以是任何受支持的类

2021-09-01 17:34:16 19754 4

原创 Python处理PDF——PyMuPDF的安装与使用(1)

文章目录1、`PyMuPDF`简介1. 资料链接2. 介绍3. 功能2、安装关于命名`fitz`的说明3、使用方法1. 导入库，查看版本2. 打开文档3. Document的方法和属性4. 获取元数据5. 获取目标大纲6. 页面(`Page`)a. 检查页面的链接、批注或表单字段b. 呈现页面c. 将页面图像保存到文件中d. 提取文本和图像e. 搜索文本7. PD操作a. 修改、创建、重新排列和删除页面b. 连接和拆分PDF文档c. 保存d. 关闭1、PyMuPDF简介1. 资料链接github地

2021-09-01 15:30:01 33805 8

原创 pdf文件转图片的两种方法

文章目录1、借助`PyMuPDF`库1）安装2）查看版本3）常用接口4）将`pdf`转为图片实例2、基于`pdfplumber`库1）安装2）常用接口3）实例本文主要记录几种pdf文件转为图片的几种方法，方便日后使用。1、借助PyMuPDF库可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。1）安装pip install PyMuPDF2）查看版本import fitzprint(fitz.__doc__)3）常用接口打开pdf文件，或者创建p

2021-08-31 16:16:16 5541 1

原创安装Numba： Failed building wheel for llvmlite

该文章记录在安装numba库时，所出现的错误，以及解决方法！1. 问题描述新配了一台服务器，在配置项目环境的时候，需要安装numba库，之前从来没有关注过，一般都是直接使用pip3 install numba进行安装。但这次使用pip3进行安装的时候，出现了以下错误：根据上图，可以看出错误信息是因为编译llvmlite失败，提到无法找到llvm-config。===>开始百度，随后发现如下几篇文章：安装llvmlite报错解决：RuntimeError: llvm-config f.

2021-04-23 18:22:30 13459 5

原创 U2Net论文解读及代码测试

论文名称： U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection论文地址： https://arxiv.org/pdf/2005.09007.pdf论文作者：Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane and Martin Jagersand University of Alberta, Canadagi.

2020-11-25 18:22:22 41973 18

转载 Python浮点数四舍五入问题的分析与解决方法

1、问题昨天遇到一个问题，在 6.6045 保留三位小数时，使用 round() 函数进行计算，我们希望得到 6.605，然而：>>>round(6.6045,3)6.604网上有人说，因为在计算机里面，小数是不精确的，例如 1.115 在计算机中实际上是 1.114999999999999991182，所以当你对这个小数精确到小数点后两位的时候，实际上小数点后第三位是 4，所以四舍五入，结果为 1.11.这种说法，对了一半。因为并不是所有的小数在计算机中...

2020-10-15 17:21:48 2118

原创 flask 获取GET和POST请求参数（全）

1、简要说明近日，在使用flask框架获取前端的请求时获取参数时，遇到了几个问题；之前的项目也有使用这部分，当时程序没有问题就没再深究，直到遇到了问题。果然，遇到问题才会成长！^_^因此，对GET和POST两种请求方式的参数获取方式进行梳理。request对象是从客户端向服务器发出请求，包括用户提交的信息以及客户端的一些信息。客户端可通过HTML表单或在网页地址后面提供参数的方法提交数据，然后通过request对象的相关方法来获取这些数据。request请求总体分为两类：get请求GET把参

2020-07-24 16:25:55 75615 3

原创 python ftplib模块实现文件上传下载

当前需求：从FTP服务器上下载文件到本机，处理完成后，再把结果上传至FTP服务器指定路径下。一、ftplib模块–FTP协议客户端Python中默认安装的ftplib模块定义了FTP类，可以用来实现简单的ftp客户端，实现上传、下载文件功能。说明手册： ftplib — FTP protocol client — Python 3.5.9 documentation1、FTP类及其方法class FTP(host='', user='', passwd='', acct='', timeout.

2020-06-19 18:03:31 5493

原创图像语义分割：TensorFlow Deeplabv3+ 训练自己数据集

本文主要介绍如何使用自己的数据集训练DeepLabv3+分割算法，代码使用的是官方源码。1、代码简介当前使用TensorFlow版本的官方源码，选择它的原因是因为代码中的内容比较全面，除了代码实现以外，还提供了许多文档帮助理解与使用，同时还提供了模型转换的代码实现。代码地址：【github】models/research/deeplab at master · tensorflow...

2020-04-21 11:25:12 4835 26

原创【Python】—日志模块logging详解多进程日志记录

文章目录1、问题描述2、分析2.1 `logging`模块实现日志回滚2.2 多进程日志安全输出到同一文件方案3、解决方案3.1 使用`ConcurrentRotatingFileHandler`包3.2 对日志输出加锁3.3 重写`FileHandler`类3.4 单独进程负责日志事件3.5 `logging.SocketHandler`的方案4、参考文献1、问题描述项目中，使用Rot...

2020-01-06 18:12:55 6608 1

原创【Python】日志模块logging使用详解2

文章目录一、小总结二、Logger对象的日志等级三、使用多个处理器和多种格式化四、日志回滚1. RotatingFileHandler2. TimedRotatingFileHandler五、RotatingHandler存在的问题六、从多个进程记录至单个文件本文作为Python日志模块的补充，主要介绍日志回滚RotatingFileHandler和TimedRotatingFileHandl...

2020-01-03 18:34:36 803

原创【Python】—日志模块logging使用详解1

文章目录1、日志级别2、logging流程3、日志输出形式4、基本使用部署项目时，不可能将所有的信息都输出到控制台中，因此我们将这些信息记录到日志文件中，不仅方便查看程序运行的情况，也可以在项目出现故障时根据该运行时产生的日志快速定位问题。1、日志级别Python标准库logging用做记录日志，默认分为六种日志级别：NOTEST(0)DEBUG(10)INFO(20)WARNIN...

2020-01-02 17:18:35 3461

原创 Python 字符串前加r,b,u

目录问题描述1、字符串前加字母`u`2、字符串前加字母`r`3、字符串前加字母`b`问题描述在处理python代码的时候，经常可以看到字符串的前面有u, b, 或r字母，如下图所示：b'2019:12:26 07:52:16'加上这些字母有什么意义呢？1、字符串前加字母u作用： u表示将后面跟的字符串以unicode格式进行编码常用在含有中文的字符串前面（不仅针对中文，可以跟任何字...

2019-12-31 13:01:18 1306

原创图像元数据（Metadata） ——Exif信息分析

文章目录1、元数据1. 图片元数据2. 如何查看元数据2、图像Exif信息2.1 简介2.1 JPG文件结构2.2 Exif与TIFF的关系2.3 Exif元数据2.4 总结3、Exif工具3.1 Pillow库3.2 exiv23.3 exifread库3.4 piexif库4、Exif记录的信息（标签）参考文献1、元数据元数据（Matedata），又称中介数据、中继数据，为描述数据的数据（...

2019-12-27 17:54:52 28827 2

原创 Keras 图像预处理 ImageDataGenerator

本文目录1. 简介2. ImageDataGenerator类介绍使用示例3. ImageDataGenerator类方法3.1 fit()3.2 flow()3.3 flow_from_directory()3.4 flow_from_dataframe()3.5 standardize()4. 具体使用4.1 示例14.2 对数据进行去中心化/标准化4.2.1 通过调用`ImageDateGe...

2019-12-24 08:52:24 15894 7

原创 kmcuda: GPU加速 Kmeans

文章目录1、kmcuda简介2、安装1. 查询gcc版本2. 查询GPU算力3. 配置GPU路径3、完整安装命令4、安装遇到的问题1. 使用pip安装2. 未指定GPU算力或使用默认值5、Python测试用例1. K-means, L2 (Euclidean) distance2. K-means, angular (cosine) distance + average6、Python API1....

2019-09-25 17:20:00 5740 6

转载机器学习：Python实现聚类算法(一)之K-Means

转自机器学习：Python实现聚类算法(一)之K-Means - lc19861217 - 博客园1. 简介K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。2. 算法大致流程为：1）随机选取k个点作为种子点(...

2019-08-27 16:23:00 1077

原创 Rasa开发使用 Rasa_NLU及Rasa_Core模型训练与测试

文章目录Rasa术语Rasa_NLU1. 目标2. Pipeline3. 准备工作：训练MITIE模型文件4. rasa_nlu 语料5. 训练模型6. 测试验证Rasa Core1. Stories可视化stories2. Domain意图intents实体entities槽slotactionstemplates3. 训练模型RasaRasa是一个开源机器学习框架，用于构建上下文AI助手和...

2019-08-20 18:05:56 15372 6

原创 Python -m 参数

文章目录查看解释模块和脚本使用查看解释-m: run library modules as a script 将模块当做脚本运行。模块和脚本在python中，模块，就是一个由代码组成的普通脚本文件。通常会提供一些函数或者类。我们在调用模块中的函数或类时，通过import <module>导入使用。当我们引入模块的时候，并不会导入模块中的__main__函数。在文件内部，一...

2019-08-20 09:45:55 1789

原创 NLP工具——Gensim的model.keyedvectors模块

文章目录1、简介2、如何获取词向量3、使用这些词向量可以做什么？1、简介models.keyedVectors模块实现了词向量及其相似性查找。训练好的此线路与训练方式无关，因此他们可以由独立结构表示。该结构称为KeyedVectors，实质上是实体和向量之间的映射。每个实体由其字符串id标识，因此是字符串和1维数组之间的映射关系。实体通常对应一个单词，因此是将单词映射到一维向量，对于某些某...

2019-08-13 16:11:13 13853 1

原创 NLP工具——Gensim 模型及词向量文件的保存与加载

文章目录1、Gensim2、保存与加载2.1 模型的保存与加载保存模型加载模型2.2 词向量文件的加载与保存保存加载1、Gensim官网： gensim: Topic modelling for humansGensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。支持包括TF-IDF, LSA, LDA, Word2Vec在内的多...

2019-08-13 15:45:19 11720 3

原创 NLP工具——NLTK 安装及使用

文章目录1、介绍2、安装3.1 安装NLTK3.2 安装NLTK Data交互式安装通过命令行安装手动安装3、Demo4、使用4.1 搜索文本（Searching Text）4.2 统计词频4.3 WordNet1、介绍【官网】Natural Language Toolkit — NLTK 3.4.4 documentation【github】NLTK SourceNLTK最初成立于200...

2019-08-09 13:42:50 9934 2

原创 NLP工具——Stanford CoreNLP的python封装包处理中文

文章目录1、StanfordCoreNLP是什么？2、StanfordNLP是什么？3、StanfordNLP的使用3.1 安装3.2 运行3.3 如何处理中文？3.4 demo1、StanfordCoreNLP是什么？CoreNLP项目是斯坦福大学开发的一套开源NLP工具包，包括词性（POS）标记器，命名实体识别器（NER），解析器，情感分析，自举模式学习和开放式信息提取工具。Stanfo...

2019-08-08 14:47:43 7281 2

原创 NLP 命名实体识别 NER

文章目录1、命名实体识别简介1.1 定义1.2 NER标注方法1.3 难点1.4 发展趋势及主要方法1）基于词典规则匹配的方法2）基于特征的机器学习方式3）基于深度学习的方法2、主要方法2.1 CRF2.2 BiLSTM+CRF对这几天看到的相关资料进行一个简单的记录。1、命名实体识别简介命名实体识别任务旨在从自然语言文本中识别具有特定意义的实体，如人名、地名、组织名。在自然语言处理（Nat...

2019-08-07 16:03:01 2120 1

转载理解条件随机场（CRF）

转自：如何轻松愉快地理解条件随机场（CRF）？以简单易懂的具体例子来讲述什么是条件随机场。定义CRF中的特征函数现在，我们正式地定义一下什么是CRF中的特征函数，所谓特征函数，就是这样的函数，它接受四个参数：句子s（就是我们要标注词性的句子）i，用来表示句子s中第i个单词l_i，表示要评分的标注序列给第i个单词标注的词性l_i-1，表示要评分的标注序列给第i-1个单词标注的词性...

2019-08-05 13:51:51 654

原创百度 UNIT 使用

文章目录1、什么是UNIT？2、专业术语3、几个概念对话系统分类4、UNIT整体流程5、多轮对话技能创建1. 创建技能2. 配置意图及词槽3. 配置训练数据4. 训练模型5. 验证效果6、技能发布7、发布机器人1、什么是UNIT？UNIT（Understanding and Interaction Technology）是百度AI退出的可定制的对话开发系统。开发文档中详细介绍了如何在UNI...

2019-08-02 16:36:38 3485 1

原创 BERT 两种输入数据处理方式

文章目录TFRecord格式写文件读取第一种：TFRecord类型第二种：tf.data.DatasetTFRecord格式TFRecord内部使用了“Protocol Buffer”** 二进制数据编码** 方案，它只占用一个内存块，只需要一次性加载一个二进制文件的方式即可，简单，快速，尤其对大型训练数据很友好。而且当我们的训练数据量比较大的时候，可以将数据分成多个TFRecord文件，来提...

2019-07-31 11:46:28 7476

原创 BERT 提取特征 (extract_features.py) 源码分析代码简化

文章目录源码分析1. 输入参数2. 主流程3. read_examples4. convert_examples_to_features5. model_fn_builder()6. input_fn_builder代码简化之前的文章介绍了如何使用Bert的extract_features.py去提取特征向量，本文对源码进一步的分析。BERT之提取特征向量及 bert-as-server的使...

2019-07-30 18:19:47 14584 7

原创 BERT BertModel类源码解析

本文目录1. 调用示例2. 初始化函数源码位于： bert/modeing.py1. 调用示例BertModel类给出的调用代码示例： # Already been converted into WordPiece token ids input_ids = tf.constant([[31, 51, 99], [15, 5, 0]]) input_mask = ...

2019-07-30 15:34:22 2925 1

原创 BERT 文本分类实操

本文目录0. 准备工作1. 数据集的准备2. 增加自定义数据类3. 修改predict输出4.fine-tuning模型上篇文章介绍了如何安装和使用BERT进行文本相似度任务，包括如何修改代码进行训练和测试。本文在此基础上介绍如何进行文本分类任务。文本相似度任务具体见： BERT介绍及中文文本相似度任务实践文本相似度任务和文本分类任务的区别在于数据集的准备以及run_classifier.p...

2019-07-30 10:05:47 3778 5

原创 FastText进行文本分类实践

目录0、内容介绍1、FastText是什么？1.1 安装1.2 如何使用？A：单词表达模型B：文本分类模型C：使用量化压缩模型2、使用fastText训练文本分类模型2.1 训练数据准备2.2 训练模型2.3 模型保存与测试0、内容介绍本文主要介绍如何使用利用fastText进行文本分类任务，包括如何准备、处理数据，训练及测试过程。最近用到fastText进行文本分类任务，其不用训练好的词向...

2019-07-23 18:44:20 9347 5

原创短文本相似度算法

目录一、无监督方法1、余弦相似度度量1.1 基于TF-IDF计算词频向量1.2 基于Word2Vec计算词向量2、基于simHash计算文本相似度3、直接度量句子间相似度—WMD二、有监督方法一、无监督方法1、余弦相似度度量基本思想：获取两个短文本的表示向量计算两个向量的余弦相似度值越大，表示越相似文本表示方法：通过TF-ID...

2019-07-15 14:51:14 18168

转载计算文本相似度方法总结

1、无监督，不适用额外标注数据average word vectors：简单对句子中的所有词向量取平均，是一种简单有效的方法缺点：没有考虑到单词的顺序，对15个字以内的短句子比较有效，丢掉了词与词间的相关意思，无法更精细的表达句子与句子之间的关系。tfidf-weighting word vectors：对句子中的所有词向量根据TF-IDF权重加权求和，是常用的一种计算sentenc...

2019-07-15 10:31:31 3585 1

原创 simHash介绍及python实现

文章目录1、simHash简介2、simHash具体流程3、Python实现simHash1、simHash简介simHash算法是GoogleMoses Charikear于**年发布的一篇论文《Detecting Near-duplicates for web crawling》中提出的，专门用来解决亿万级别的网页去重任务。simHash是局部敏感哈希（locality sensitv...

2019-07-12 11:49:30 9330 2

原创 NLP之文本匹配及语义匹配应用介绍

文章目录1、什么是文本匹配？2、文本匹配方法概述2-1 传统文本匹配方法2-2 主题模型2-3 深度语义匹配模型表示型交互型3、语义匹配应用介绍3-1 短文本-短文本语义匹配3-2 短文本-长文本语义匹配案例1-用户查询-广告页面相似度案例2：文档关键词抽取3-3 长文本-长文本语义匹配案例3：新闻个性化推荐1、什么是文本匹配？文本匹配是自然语言处理中一个重要的基础问题，可以应用于大量的NLP...

2019-07-11 18:11:57 38538 6

原创 NLP基础知识

文章目录1、NLP简介自然语言处理的研究方向2、词法分析分词工具有哪些？JiebaHanLP3、句法分析4、文本表示**文本离散表示****文本分布式表示**工具1、NLP简介自然语言处理（Natural Language Processing, NLP）是计算机科学、人工智能、语言学的交叉学科，研究在人与人交互中以及与计算机交互中的语言问题。为了建设和完善语言模型，自然语言处理建立计算框架，...

2019-07-11 12:01:47 1442

原创 NLP_基于酒店评论的情感分析

文章目录1、自然语言处理概述NLP意义与难点2、NLP核心问题与主要应用2.1 核心问题2.2 主要应用3、NLP中机器学习与深度学习方法3.1 NLP的机器学习与深度学习方法3.2 典型应用的解决效果4、NLP应用：基于评论情感分析的酒店挑选4.1 基础知识及项目背景4.2 解决方案A. 数据读取B. 机器学习解决方案C. 深度学习解决方案5、项目书写本文主要是对《AI工程师(自然语言处理)...

2019-07-10 11:14:15 7761 5

转载基于Text-CNN模型的中文文本分类实战

文章目录1、文本分类2、数据准备3、文本的预处理4、文本的数值化【词向量技术】5、文本分类模型Text_CNN模型6、模型的效果评估与调优1）文本分类中经常遇到的问题A 数据集类别不均衡B 文本分类模型的泛化能力C 模型过拟合2）模型的上线方案7、基于Text-CNN模型的中文文本分类Demo转自：吾爱NLP(4)—基于Text-CNN模型的中文文本分类实战1、文本分类转眼学生生涯就结束...

2019-07-09 17:02:40 2011

原创 Python基本数据类型——tuple, set

tuple下标注意： a[-1::-1] 表示从-1即倒数第一个元素开始，直到…，其中第二个:-1表示间隔是-1个元素，即从后往前，相当于对a的元素进行倒序a = list(range(10))# a [0,1,2,3,4,5,6,7,8,9]print(a[-2:-5:-1])8,7,6print(a[-2:-5])[]print(a[-1::-1]) # 倒叙9,...

2019-07-07 01:00:19 334

U2Net 网络预训练模型u2net.pth

U-2-Net 人脸肖像画生成预训练模型 u2net_portrait.pth

SkyAR预训练模型 best_ckpt.pt

Linux系统下，如何使用python判断一个文件已经拷贝完成？