一颗洋芋-CSDN博客

原创 python对docx文档添加文字水印或图片水印

本文介绍了使用python-docx库为Word文档添加水印的方法。通过add_text_watermark函数可在页眉插入文字水印，利用VML格式实现绝对定位，不影响段落结构。add_qrcode_first_page函数则可在首页右下角添加浮动二维码图片，通过设置wp:anchor属性实现图片覆盖效果。代码支持控制水印位置、大小和颜色，并提供了仅首页显示二维码的可选功能。该方法不需要修改文档原有格式，适合批量处理合同等文档的水印添加需求。

2025-12-10 18:00:21 249

原创 anythingllm服务器部署+ollama加载本地deepseek大模型+私有知识库问答

anythinllm功能丰富，可以设置自定义的图标工具箱等。http://宿主机ip地址:3001/最后就可以基于你上传的文档进行提问了。并运行 anythingLLM 容器。5、在anythingllm上使用。3、查看Docker log。

2025-02-19 15:06:01 934

原创微调通义千问

微调是通过在数据集上训练来改善LLMs理解人类指令的能力。本项目基于Qwen2.5-3B-Instruct模型在“事件中心”数据集上进行微调，并借助SwanLab进行监控和可视化。步骤包括安装所需库、准备数据、加载模型、配置训练可视化工具及运行完整代码。训练完成后，展示了一些示例以验证模型性能。删除脏数据和一级分类为“其他”的数据，然后保存为CSV文件。上注册一个账号，在用户设置页面复制你的API Key，训练时需要用到。使用SwanLab来监控整个训练过程，并评估最终的模型效果。约占16GB显卡内存。

2025-02-19 10:42:13 544

原创本地搭建并使用通义千问进行文本数据增强

在huggingface.co官网上可以看到Qwen有专门针对文本领域、数学领域、代码领域以及图像领域的模型，而每个领域中根据参数量的不同也分为2B、7B、16B、72B等不同量级大模型，本项目文本都选择了3B量级，所消耗GPU资源约7GB。在中文文本中，由于语言的复杂性和多样性，这种技术尤其重要，可以有效避免过拟合，提升模型对未见过的数据的理解能力。可以看到，大部分类别的数据量都低于200，因此需要将低于200的分类进行数据增强，而对大于500的分类数据进行欠采样（随机抽取一部分数据）。

2024-12-04 10:30:00 733

原创使用docker搭建yolov8环境（从头到尾完整流程，小白也能行！）

Linux服务器，CentOS 7系统，CUDA版本11.4，确保显卡可以正常使用。

2024-12-03 16:41:04 3829

原创 linux下yum安装时报错： failure: repodata/repomd.xml from bml: [Errno 256] No more mirrors to try.

4、编辑新的.repo文件，添加以下内容（以阿里云源为例）5、保存文件后，运行以下命令清除缓存并生成新的缓存。3、创建一个新的.repo文件。运行yum命令提示YUM。备份当前的YUM源配置文件。2、删除旧的.repo文件。

2024-10-29 13:01:45 1922

原创基于Bert-base-chinese训练多分类文本模型(代码详解）

BERT（Bidirectional Encoder Representations from Transformers）是基于深度学习在自然语言处理（NLP）领域近几年出现的、影响深远的创新模型之一。在BERT之前，已经有许多预训练语言模型，如ELMO和GPT，它们展示了预训练模型在NLP任务中的强大性能。然而，这些模型通常基于单向的上下文信息，即只考虑文本中的前向或后向信息，这限制了它们对文本的全局理解。BERT旨在通过引入双向上下文信息来解决这一问题，从而更准确地表示文本中的语义信息。

2024-09-03 17:28:34 6583 6

原创基于Retina+PFLD+CNN人脸关键点及表情识别

基于此，分别使用retina进行人脸检测，PFLD进行人脸关键点识别，emotion-ferplus-8进行人脸表情的分类，它是基于微软的 FER+ 数据集训练的CNN分类网络，准确率约62%。对图片/视频中的人脸进行检测，并绘制人脸框。然后对检测到的人脸进行关键点识别，并进行绘制。最后根据人脸关键点，裁剪出人脸，判断该人脸的表情。代码如下，有详细的注释，注意修改一下自己的模型地址。模型地址在文末...

2024-08-08 17:38:34 567

原创使用git上传代码到github

如果在commit出现错误error: pathspec ‘xxx‘ did not match any file(s) known to git，则先执行。根据上图中红框标出的id_rsa.pub地址，找到它，使用txt文件打开，复制里面的内容(该内容就是SSH)。④提交更改到服务器(双引号里面是注释，可随意输入)⑥先pull，将服务器最新的更改获取到本地。⑦再push，将本地主分支更新推到远程。6、将本地文件上传到github。5、github上添加仓库。再执行④、⑤、⑥、⑦步骤。

2024-08-07 17:02:27 336

原创基于FaceX-Zoo里的faceSDK实现人脸识别（与人脸库结合比对人脸）

此外，将带有照片的附加信息表img.xlsx与Faiss向量数据库的索引进行一一映射，目的当输入一张新的图片要与人脸库进行对比时，能够获取该图片的信息。功能描述：传入一张图片帧/图片，能够与人脸库的人脸数据进行比对，比对成功，则在图片上打上标签，标签信息包含——名称和相似百分比；测试结果如下所示，根据人为评估可知：test03误判，与人脸库比对相似度42%，但实际上人脸库并没有这个人的图片，所以。计算新输入图片的人脸特征向量与人脸库的人脸特征向量之间的欧氏距离，距离越短，说明相似度越高。

2024-07-09 16:01:29 1934 3

原创 Docker搭建yolov8并训练、验证、推理化学仪器数据集

本文通过docker的方式搭建yolov8运行环境，并成功训练了化学仪器数据集，其中训练数据215张，验证数据65张，类别14。

2024-06-21 10:11:10 3680 10

原创 Docker基本使用

代码从开发环境打包到测试环境，然后从测试环境打包到开发环境上，但是会出现一个问题，如果开发环境的jdk版本为8，测试环境的jdk环境为7，那么测试代码时就可能出错。docker是一个开源的应用容器引擎，诞生2013年初，基于go语言实现，docker可以让开发者打包他们的应用及依赖包（环境）一起打包到一个轻量级、可移植的容器中，然后发布到任何流行的linux机器上，并且容器之间相互隔离互不影响。2、docker容器和外部机器不可以直接交换，但是可以间接，外部机器将数据传进数据卷中，就可以直接同步交换。

2024-05-13 09:09:46 1130 1

原创基于ChatGLM+Langchain离线搭建本地知识库（免费）

ChatGLM-6B是清华大学发布的一个开源的中英双语对话机器人。基于架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。LangChain提供了丰富的生态，可以非常方便的封装自己的工具，并接入到LangcChain的生态中，从而实现语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。

2024-05-11 16:30:47 3282 6

原创解决离线服务器无法加载HuggingFaceEmbeddings向量化模型的问题

也就是说加载完向量化模型后，我初始化了Chroma向量数据库，然后对传入的doc文档数据进行向量化，它会提示找不到embed_documents这个属性。本身BertModel是没有这个属性的，但是Chroma却需要调用这个属性来实现文档向量化（通过HuggingFaceEmbeddings来加载模型就不会报错，但是离线服务器上用不了）。最后再调用这个类，就能正常对文档进行向量化和本地持久化了。

2024-05-10 11:16:34 4423 2

原创基于机器学习预测岗位薪资

本文根据某招聘网站抓取的岗位信息，来预测该岗位平均薪资。

2024-04-13 20:55:59 2974

原创 PyODPS：基于阿里云平台python脚本实现多张表之间字段匹配与填充

如果你的阿里云平台配置过连接信息，则可以忽略下面这段代码，如果没有，那么你需要建立一个odps连接。一般来说，我们可以使用sql关联两张表来进行数据匹配填充，关联条件可以借助正则匹配或者like，但是这样不够精准，因为存在数据不完善的情况。现在，我要根据表test02的地址名称(name)列，和表test01的详细地址列(addr)进行匹配，将表test02的地址代码和地址名称填充/覆盖到表test01相应的code和name列。该表一共有三列数据，第一列为地址代码，第二列为地址名称，第三列为详细地址。

2023-12-12 11:31:49 1313

原创 PyQt5实现图像抠图交互式系统【环境搭建+GUI界面+功能实现】附完整代码

你可以在Qt Designer中选择组件来构建你想要的界面，然后再将其转换为py文件，再写一个main.py文件来给各个组件赋予功能。注意，若PyQt5指定了版本，pyqt5-tools也要指定版本，否则pyqt5-tools安装为最新版本后，会将PyQt5也重新安装为最新版本。打开cmd窗口，使用命令 conda env list 查看当前虚拟环境，可以切换到你想要的虚拟环境进行下载，命令 activate。这只是一个示例，可以根据需要对算法进行优化，抠出理想的结果。这里我就使用默认的环境base。

2023-11-26 00:00:00 1919 2

原创数字图像处理技术统计米粒个数【Python实现】

如图所示（只要是米粒图都行），通过图像处理完成数米粒个数的功能，要求数米粒个数要正确。统计出的米粒个数为49，与实际相符合。

2023-11-23 09:39:26 2035 1

原创【Pytorch搭建卷积神经网络】利用神经网络解决手写识别数据集问题

但是在大多数情况下，我们一般会卷积神经网络的定义单独定义成一个CNN.py类，这样在使用的时候，我们直接导入该类。接下来我们将图片数据和预测结果都显示出来，（lab_log.txt有详细介绍每个文件夹的作用），代码有详细的注释，帮助理解整个搭建流程。重新定义一个脚本，用于加载刚刚保存的模型。本文利用手写数字数据集搭建一个简单的分类。

2023-08-22 15:39:24 310

原创【Pytorch搭建简单神经网络】利用神经网络解决波士顿房价问题

本文利用波士顿房产数据来搭建一个简单的线性神经网络，代码有详细的注释，帮助理解整个搭建流程。（lab_log.txt有详细介绍每个文件夹的作用）重新定义一个脚本，用于加载刚刚保存的模型。

2023-08-16 13:34:15 652

原创【入门深度学习】Pytorch基础知识（二）

就是将n维特征映射到k维上，这k维是全新的正交特征，也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。即A = VΛV^(-1)，其中，V是一个由A的特征向量组成的矩阵，Λ是一个对角矩阵，对角线上的元素是A的特征值。LDA分解的目标是将原始高维数据投影到一个低维空间，同时最大化类间的差异和最小化类内的差异。LU分解：LU分解将一个矩阵分解为一个下三角矩阵L和一个上三角矩阵U的乘积，即A = LU。QR分解：QR分解将一个矩阵分解为一个正交矩阵Q和一个上三角矩阵R的乘积，即A = QR。

2023-08-14 13:27:01 261

原创【入门深度学习】Pytorch基础知识（一）

"tensor"（张量）是基于标量、向量、矩阵更加泛化的概念，是一种表示和处理多维数据的数据结构。0阶张量：标量，即单个数值。1阶张量：向量，表示一维数组。2阶张量：矩阵，表示二维数组。以此类推，3阶张量表示三维数组，4阶张量表示四维数组，以此类推。# 创建张量print(a)# 指定shapea = torch.Tensor(2,3) # 随机的值print(a)# 定义特殊的Tensora = torch.ones(2,2) # 全1print(a)

2023-08-07 22:16:28 267

原创【深度学习之神经网络】PyTorch入门神经网络

目前主流的深度学习框架有Pytorch和TensorFlow。其中，PyTorch的优势在于简洁性（编程同Python几乎一致），而TensorFlow编程思路相对会更复杂一些。另外，PyTorch采用了动态图的计算方式，而TensorFlow采用静态图（TensorFlow2.0引入了动态图，但不够稳定）。简单来说，动态图就是一边编程一边执行，而静态图需要现先将网络结构设计好再去运行网络。

2023-08-05 13:07:29 436

原创【python入门机器学习】Boosting集成学习

Boosting就是集成多个弱学习器，每个弱学习器都是针对训练数据的不同子集训练得到的，而每个弱学习器都会根据前一个弱学习器的表现进行加权，从而使得模型更加关注之前被错误分类的样本，进而提高模型的预测准确率和预测性能。

2023-07-26 11:00:00 434

原创【python入门机器学习】随机森林

极端随机森林在构建每个决策树的过程中，对于每个分裂节点的特征和分割点的选择都是随机的，而不是像传统随机森林一样选择最优的特征和分割点。它提供了额外的随机性，提高了训练速度，并且抑制过拟合，但一定程度上增大了偏差（bias）。随机森林就是由多个决策树组成的集成学习方法，每个决策树都进行独立训练，训练数据都是从原始数据中进行有放回的（Out-of-Bag）随机抽样而来，这样可以使得每个决策树的训练数据不完全相同，从而增加了模型的多样性。

2023-07-25 12:31:37 2666 1

原创【python机器学习】集成学习

集成学习是一种将多个单独的学习模型组合成一个更强大的模型的技术。其目的是将多个模型（KNN、逻辑回归、SVM等）的预测结果，通过投票（少数服从多数）来提高整体预测的准确性和稳定性。log_clf = LogisticRegression() #逻辑回归#0.864svm_clf = SVC() #SVM分类器#0.896dt_clf = DecisionTreeClassifier(random_state=666) #决策树分类器#0.864# 3个分类器的预测结果#手动完成集成学习。

2023-07-22 17:33:45 512

原创【python机器学习】决策树（二）

使用sklearn中DecisionTreeRegressor来解决，它与DecisionTreeClassifier的超参数都是相同的，区别在于最后得到的结果是分类结果还是回归结果。以上代码是分别传入决策树中的各个参数得到的结果，同时我们也可以通过网格搜索的方式将这些参数组合起来，来调整模型结果。根据前面的例子我们可以看出，决策树的决策边界都是与x轴和y轴平行的，对于这类决策边界，它具备一定的局限性。最大深度（max_depth）：决策树的最大深度，用来控制决策树的复杂度和过拟合风险。

2023-07-20 15:01:56 650

原创【机器学习算法】决策树（一）

决策树能够通过对数据的逐步分割，构建一棵树形结构来实现预测和判断。在决策树模型中，每个节点表示一个属性或特征，每个分支表示该属性或特征的一个取值，叶子节点表示最终的分类或回归结果。X = iris.data[:,2:] #选两个特征#创建决策树分类器dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42) #max_depth最高深度，自定义划分深度#绘制决策边界plt.show()

2023-07-19 12:53:59 168

原创支持向量机SVM学习——多项式核函数、RBF核函数

支持向量机SVM学习——多项式核函数、RBF核函数

2023-07-18 10:45:00 6546 1

原创【情感提取+情感计算+词频统计】python情感分析--网盘链接已更新

情感分析是一种自然语言处理技术，旨在识别文本中的情感并将其分类为积极、消极或中性。它通过使用机器学习算法和自然语言处理技术来自动分析文本中的情感，从而帮助人们更好地理解文本的情感含义。本文以某译本new_deepl_translated.txt为分析对象，通过对译文断章切句，进而对每一个句子情感词提取、情感值计算，以及词频统计，最后保存为excel文件。

2023-07-17 13:30:48 15598 15