黄昏中起飞的猫头鹰-CSDN博客

原创大模型专业术语语料如何采集！XPath高级技巧助力狩猎

在大模型语料的采集中，确保语料的高质量是至关重要的。因此，在使用爬虫获取数据时，我们需要灵活运用XPath基本知识，进行节点转换，准确提取有效信息，剔除广告和异常字符，同时将图片和视频链接转换为模型可识别的格式等操作。这确保了我们获取的数据是干净、有用的，为大模型训练提供保障。这里分享了一个XPath节点用法的简单案例。

2023-12-18 20:52:32 848

原创 AI聊天伴侣的语料采集大揭秘：OpenCV如何轻松识别聊天图片？

最近，负责元宇宙中AI聊天伴侣的语料数据采集，这些数据主要用于AI虚拟角色聊天的训练和测试。今天，我将详细讲解如何利用OpenCV轻松识别真实的聊天图片。在这个过程中，我主要涉及了一系列操作，包括OpenCV如何读取PDF多个分页图片、如何对图片进行水印过滤和异常文字剔除、如何识别聊天文本框和聊天角色、以及如何提取颜色等关键步骤。通过OpenCV的强大功能，实现对聊天图片的智能识别和处理。这些技术操作不仅能构建了一个高质量的语料库，而且为AI虚拟角色的训练提供了可靠的基础。

2023-12-18 00:40:51 1636

原创如何增加ai虚拟聊天伴侣趣味性——OpenCV识别大量真实聊天图片采集高质量语料

如何用OpenCV这个神奇的工具，轻轻松松地识别大量真实聊天图片。这个过程中，运用了一系列高级技巧，比如OpenCV怎么从PDF中读取好多分页图片、怎么样过滤水印、剔除掉那些奇怪的文字，还有怎么准确地认出聊天文本框和聊天角色。最有趣的是颜色的提取，这样的操作，让整个过程变得高效而且智能。通过OpenCV这个魔法工具，我们成功实现了对大量聊天图片的自动化识别和处理。这可不仅仅是建了一个高质量的语料库，更是为AI虚拟角色的培训提供了可靠的基础。

2023-12-18 00:36:19 936

原创交易流水指标统计——pandas

3、将交易月份数大于等于2的交易对象的前两个月定义为1，2，交易月份数小于2的不定义。并匹配到原始表中，即，原始表新增一列，first_twoM。2、将上面计算的指标匹配到原始数据表中，按交易对象（人名）匹配，原始表新增上面几个指标列。总收入笔数、总收入月数、最大月收入笔数、最大月收入笔数所在日期（年月日格式）4、根据交易日期，将连续的月份定义为1，不连续定义为0。1、根据交易流水，计算每个交易交易对象的如下指标，

2023-07-23 20:46:19 883

原创使用Pandas计算两个系统客户名称的相似度

如何使用Pandas库来计算两个系统中客户名称的相似度。通过将客户ID匹配后，我们可以使用字符串相似度算法来计算两列客户名称的相似程度，从而帮助我们识别和处理重复或相似的客户记录。

2023-07-19 21:18:22 2023

原创如何快速爬取国内985大学学术学报pdf文件

最近，在爬取关于国内985大学的学报时，我注意到大部分大学学报站点格式都采用相似的形式，并且PDF链接都使用自增的ID。然而，我也发现了一个问题，即大多数PDF链接的ID并不是连续的。现在我将向你分享一些方法，以快速获取所有的大学学报PDF链接。

2023-07-19 17:53:31 2615

原创客户异常数据清洗详细教程——pandas

在不同行业，我们经常会遇到数据清洗的问题，比如说我们需要清洗客户编码异常数据。这个问题是很多人都遇到的，因为很多银行的数据都是以客户为单位进行管理的，每个客户都有一个编码。那么当我们在处理这些数据的时候就会碰到这样的问题： 1.这个客户的编码一个是空的，另一个不为空 2.这个编码有多个不同的值的 3.这个客户的编码为空针对这些问题，我们要对数据进行清洗。在这里我给大家推荐一个非常好用的工具： pandas。它是一个非常强大的 python库，在 pandas中有很多可以快速清洗客户编码异常数据的方法。

2023-07-19 11:29:51 628

原创如何爬取股票动态图形数据——Echart提示框数据

最近爬虫遇到爬取echart图形数据时，发现Api 并没有提供这个方法，而是通过tooltip生成。，原生提示框样式 echarts提供的提示框，都是悬浮样式的。目标网站：某千股XX网站使用开发者工具直接搜索发现无法定位到机构参与度：42.00等关键数据通过搜索echart样式关键字tooltip可以找到，echart图形生成的关键代码：确认echart样式后，通过在控制台获取echart对象生成图片的所需的数据：这里，我们使用。

2023-07-15 17:46:16 842

原创利用Pydub自动分割音频

本文将介绍如何使用 Python 中的 Pydub 库对音频文件进行分割，并探讨如何将分割后的音频应用于短视频的背景音乐。通过本文的学习，读者将学会如何使用 Pydub 库读取音频文件，设置分割参数，计算分割数量，以及如何在短视频中应用分割后的音频作为背景音乐。这不仅能够帮助读者更好地处理音频文件，还可以为短视频的制作提供更多的灵感和选择。

2023-05-01 21:04:03 4056

原创当影像遇上Python：用MoviePy库轻松搞定视频编辑

🎬 您对视频编辑感兴趣吗？💻 想学习如何使用 MoviePy 制作精彩视频吗？🎥 不要再观望！这份综合指南将向您展示您需要了解的关于 MoviePy 的一切，从安装到高级编辑技术。使用 MoviePy，您可以轻松创建视频剪辑、剪切和修剪视频、添加文本和标题、应用特殊效果和滤镜等等。此外，您还将学习如何使用缓存、多线程和 GPU 加速来优化您的编辑过程。🚀 别再等了，让我们开始编辑吧！

2023-04-30 20:22:42 6709

原创利用Python轻松实现视频合成！

当你用 MoviePy 的力量，轻松地将多个视频合并成一个！在这篇博客文章中，你将学习如何将一个小视频合并到一个较大的视频中，并将其放置在右上角。你还将学习如何剪辑视频片段，以创建一个更无缝的最终产品。本指南提供了逐步说明和有用的视觉效果，让你很快就能制作出专业品质的视频！💻🎥💡

2023-04-30 18:39:42 4309

原创轻松剪辑、合并和添加特效，快速完成视频处理——掌握MoviePy库

🎥想要快速而轻松地完成视频处理吗？那么不要错过MoviePy库！这个易于使用且功能强大的库可以帮助你剪辑、合并、添加音频、文本、特效等多种功能。在本篇博客中，我们将介绍如何使用MoviePy库，让你轻松掌握视频处理技巧。

2023-04-30 18:11:32 2469

原创 Python变量的神奇之旅：探秘编程世界的基石宝藏！✨

🚀揭秘Python变量的庐山真面目！🚀 本文将带领您领略Python变量的深奥魅力，通过精彩纷呈的案例和富有表现力的表情包，系统地剖析变量的定义、命名规则、基本操作、高级技巧，以及内存管理等重要知识。无论您是初涉编程世界的新手，还是技艺高超的开发者，这篇文章都将带您重新审视Python变量的内在本质，并为您奉上实用的编程技巧，助您在编程旅程中更上一层楼！🔥

2023-04-27 00:17:43 1247

原创关于TypeError: decode() argument ‘encoding‘ must be str, not None 的三种解决方法

Scrapy-Redis是Scrapy的分布式扩展，它可以使用Redis作为请求队列。使用Scrapy-Redis时，可能会遇到一个常见的错误：TypeError: decode() argument 'encoding' must be str, not None。这是因为Scrapy-Redis在从Redis队列中读取请求数据时，数据是字节类型的，而Scrapy请求需要字符串类型的URL。有三种解决方案：重写make_request_from_data()方法，在存储请求数据时将其转换为字符串类型，或修

2023-04-16 19:37:50 1754

原创 redis.exceptions.ResponseError: WRONGTYPE Operation against a key holding the wrong kind of value

在这篇博客中，我们探讨了Scrapy-Redis中一个常见的错误：redis.exceptions.ResponseError: WRONGTYPE Operation against a key holding the wrong kind of value。我们通过分析错误的背景和解决方法，帮助大家找到了问题的根源并解决了它。我们介绍了一个简单的解决方案，即将REDIS_START_URLS_AS_SET参数设置为False，以确保Scrapy-Redis使用列表而不是集合来存储start_urls。此

2023-04-16 19:01:13 1072

原创 scrapy-redis报错：spop() takes 2 positional arguments but 3 were given

Scrapy-Redis是一个基于Scrapy的爬虫框架，它允许我们创建分布式爬虫，这样我们可以在多台机器上运行爬虫以提高效率。然而，在使用过程中，我们有时会遇到一些报错，就像我们今天要讨论的这个问题一样。要解决这个问题，我们可以尝试升级我们使用的Redis库，因为新版本的Redis库可能已经修复了这个问题。当我们遇到这个错误时，可能会感到很困惑🤔，但别担心，我将带领大家逐步解决这个问题。首先，我们来理解这个错误信息。

2023-04-16 18:17:28 664

原创从入门到精通：掌握Python核心知识，解锁编程新世界！

你是Python编程的初学者还是想更新你的知识？别再看了！这个博客涵盖了基本的Python概念，包括数据类型、控制流、函数、模块和数据结构。您将通过示例和有趣的表情符号图形学习，使其成为一种愉快的阅读方式。不要错过这个提升Python技能的绝佳机会！🚀📚🐍

2023-04-09 17:19:02 1205

原创 Python 3.11，新特性亮点满满，让你的编程之路更加轻松！

Python 3.11 带来了五大新特性，包括模式匹配、结构化模式匹配、类型提示改进、时区模块和 HTTPX 库。这些新特性和优化提高了 Python 代码的可读性、可维护性和安全性，使开发者们的工作更加简单、高效和有趣。本篇博客将详细介绍这五大新特性，并提供了示例来演示如何使用它们。Python 3.11 带来了五大新特性，包括模式匹配、结构化模式匹配、类型提示改进、时区模块和 HTTPX 库。这些新特性和优化提高了 Python 代码的可读性、可维护性和安全性，使开发者们的工作更加简单、高效和有

2023-04-06 22:29:13 2452

原创 8个Python编程技巧，让你的代码速度飞起，老板刮目相看！

这篇博客介绍了8个创新且详细的Python编程技巧和最佳实践，包括使用f-string进行字符串格式化、使用枚举遍历列表、列表推导式简化代码、使用functools.lru_cache实现缓存优化、使用装饰器增强函数功能、使用any()和all()函数检查列表元素满足条件、使用collections.Counter统计元素出现次数和使用with语句管理文件和资源。每个知识点都给出了详细的解释、示例和代码，并提供了一些实用的技巧和建议。这些技巧可以帮助读者提高Python编程能力，写出更高效、更易读的代码。

2023-04-05 18:44:58 466

原创 Pandas 日期处理：生成及去除工作日与节假日

如果你想了解如何在 Python 中高效处理日期数据，那么本篇博客一定是你不容错过的！我们将带你探索 Pandas 日期处理的精髓，包括如何创建时间序列和日期范围、如何进行日期偏移和滚动窗口操作，以及如何重采样和格式化日期数据。不仅如此，我们还将通过实例演示如何使用 Pandas 生成和过滤工作日和节假日数据。本篇博客既有趣味性又有实用性，无论你是初学者还是专家，都一定会从中受益匪浅。赶快来了解一下 Pandas 日期处理的精华吧！

2023-03-30 18:59:57 3592

原创 Python音频处理——pydub

Pydub是一个用于处理音频文件的Python库，它提供了一种简单而强大的方式来操作音频文件。本文介绍了Pydub的主要功能和特性，包括读取、写入、剪切、混合、转换和处理音频文件的能力。我们还讨论了Pydub如何与其他Python库和工具集成，例如NumPy、SciPy和Pandas等。此外，我们还介绍了Pydub在音频处理领域的应用，包括音频分析、语音识别、音频编辑和音频转换等。最后，我们对Pydub的性能进行了评估，并与其他流行的音频处理库进行了比较。总的来说，Pydub是一款非常有用的音频处理工具，可

2023-03-19 17:17:04 8483 1

原创 Python使用XPath解析HTML：从入门到精通

Python使用XPath解析HTML文档的方法和技巧XPath是一种用于选择XML文档中节点的语言，它可以通过路径表达式来定位节点。由于HTML文档的结构与XML文档类似，XPath也可以用于解析HTML文档。Python是一种非常流行的编程语言，它提供了许多库用于解析HTML文档。本文将介绍Python中使用XPath解析HTML文档的方法和技巧，并提供详细的案例来帮助读者掌握这个技术。

2023-03-18 21:47:24 14693

原创 Pandas-文本特征构造

文本特征是指从文本中提取出的有意义的特征，常见的文本特征有词频、tf-idf、n-gram等。在机器学习领域，文本特征是非常重要的一种特征，因为文本数据是一种非常常见的数据形式。本文将从tf-idf、中文分词、类别特征构造法等方面介绍文本特征的相关知识。

2023-03-18 18:06:05 528

原创 Python天文数据处理——Astropy

Astropy是一个Python包，旨在为天文学家提供一个通用的框架，用于处理天文数据和进行天文学计算。它提供了众多工具和函数，用于解决天文学中常见的问题，并集成了许多常用的数据格式和目录，例如FITS、VOTable、ASCII表格等。本文将介绍Astropy的版本5的方法和属性，并提供真实案例，以便读者更好地理解其使用方法。我们将使用上一节中下载的马头星云FITS图像为例，演示如何使用Astropy来处理和分析这张图像，并展示不同的绘图方法和标准化方法。此外，我们还将介绍Astropy的官方网站和Git

2023-03-17 21:17:45 11892 2

原创 Pandas特殊连接 —— merge_ordered及merge_asof

Pandas特殊连接merge_ordered()merge_asof()

2023-02-17 22:36:39 3998

原创 Pandas特征工程——线性变换

线性变换Z-score变换归一化变换归一化至[0,1]归一化至[-1,1]归一化极端值处理离群值检查 LOF算法

2023-02-16 22:43:29 471 1

原创 Pandsa时间序列采样频率滑窗及重采样

Pandsa时间序列采样频率滑窗及重采样1.滑窗函数rolling()获取近7天的销售总量shift() 及 diff()2.重采样pandas.resample时间分组

2023-02-15 18:27:13 960

原创 Pandas时间戳与时间差

使用pd.date_range() 可以生成连续时间间隔的时间戳序列。参数有start，end,freq和periods,分别代表起始时间，终止时间，时间间隔，时间戳个数。时间单位参数有weeks、days、hours、minutes、seconds、milliseconds、microseconds、nanoseconds.能把一列时间戳格式对象转化为datetime64类型的时间戳序列。时间差序列支持与标量乘法运算、与时间差加减法和除法运算、与时间戳加减法运算。时间戳由两个时间戳相减得出。

2023-02-14 22:49:08 1533 1

原创 python 自动化采集全国行政区划代码

python自动采集分析2022年中国行政区划代码

2023-02-10 15:03:40 1744 4

原创 pandas如何自定义excel格式及导出多个sheet表

pandas 默认整合XlsxWriter驱动，自动化处理excel操作，提供公式、设置单元格格式、可视化分析图片等操作# 计算每列的合适字符宽度，放到元组中（可以设置最大值）#设置每列宽度大小[worksheet.set_column(i, i, width) for i, width in enumerate(widths)] #计算的宽度，设置列宽坑：pandas.ExcelWriter默认首行颜色格式无法修改，需要删除首行后重新写入首行。

2023-01-21 22:20:24 5983

原创如何两周快速通过阿里云大数据分析师acp认证（及免费获取ACA认证资格）

阿里云大数据分析师 ACP 认证（Alibaba Cloud Certified ProfessionalData Analyst）是面向大数据分析师、BI 工程师的专业技能认证，涵盖数据分析相关的知识体系，如大数据基础知识、大数据存储技术、数据分析工具、数据可视化、数据编程、数据质量控制、数据分析项目管理、机器学习等。

2023-01-20 21:08:30 2601

原创【js逆向】md5加密参数破解

md5:消息摘要算法（英文：MD5 Message-Digest Algorithm ），一种被广泛使用的密码散列函数，可以产生一个128位（16字节）的散列值。加密算法不可逆，通过暴力穷举法破解，以及网站接口实现解密。js逆向中，可以通过搜索MD5关键字查找加密位置。python实现MD5加密:方法一：方法二：输出结果都为：进入登录窗口，打开开发者工具，输入账号密码，点击登录进行抓包：网站地址：https://www.zhaoxi.net/在开发者工具中Network面板可以看到登录提交..

2022-06-29 16:33:12 6359 1

原创 Python爬虫面试知识

网络爬虫又称网页蜘蛛，爬虫即是网络上爬行的蜘蛛。可以将理解为一种在互联网上自动提取网页信息并进行解析数据的程序网络爬虫主要的分类有：聚焦网络爬虫、增量网络爬虫、通用网络爬虫、深层网络爬虫Robots协议又称机器人协议，通常在网站根目录下的存放的文本文件，它记录了网站哪些数据可以采集，哪些数据不能采集，以此来约束爬虫URL：全称为统一资源定位符，其包括https协议，访问路径和资源名称。使用url定位互联网上的资源。HTTP协议，中文名称为超文本传输协议，其作用是保证超文本数据高效准确地传输到本地浏览器上。

2022-06-08 16:59:49 688

python 获取2022年全国行政区划代码脚本

网络爬虫.论文答辩PPT

空空如也