自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 Python爬虫实战:爬取知乎回答详情

【代码】Python爬虫实战:爬取知乎回答详情。

2025-06-10 14:24:26 358

原创 深入理解Optional:处理空指针异常

明确表达了"可能没有值"的语义减少了显式的null检查提供了函数式风格的操作方法使代码更加简洁和可读通过合理使用Optional,我们可以编写出更安全的代码,有效减少空指针异常的发生。但同时也要注意它的适用场景,避免滥用。

2025-06-09 14:40:25 710

原创 Python爬虫(四):PyQuery 框架

记住:工具没有绝对优劣,只有适合与否。掌握两者的特点,就能根据实际需求做出最佳选择!PyQuery 是一个 Python 的 HTML/XML 解析库,它采用了。,让开发者能够用类似前端 jQuery 的方式处理文档解析。需要jQuery风格语法?需要处理复杂/脏HTML?

2025-06-09 14:33:59 971

原创 Python爬虫(三):BeautifulSoup库

BeautifulSoup 是一个 Python 库,专门用来解析 HTML 或 XML 文件,方便我们提取数据。它能把网页源代码转换成树形结构,让我们可以轻松查找、修改内容,并自动处理编码问题(如 Unicode 和 UTF-8)。

2025-06-09 10:04:34 280

原创 Python爬虫(二):爬虫完整流程

robots.txt实战案例:爬取知乎热榜需要先模拟登录获取cookies。

2025-06-09 09:57:28 1033

原创 Robots.txt 文件

,它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots 排除协议(REP),告诉爬虫哪些页面或目录可以访问,哪些应该避免。

2025-06-09 09:15:37 347

原创 Python爬虫(一):爬虫伪装

在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度面对这些防御措施,我们需要让爬虫行为尽可能模拟普通用户,才能成功获取所需数据。本文将全面解析爬虫伪装的核心技术。

2025-06-06 10:23:04 915

原创 Python进阶【四】:XML和JSON文件处理

Python提供了多种处理XML和JSON文件的方式,让我们来看看最常用的方法。

2025-05-29 15:50:04 692

原创 HTML、XML、JSON 是什么?有什么区别?又是做什么的?

移动开发HTML 负责网页的“外貌”XML 和 JSON 负责网页的“内容”XML 是过去的数据格式标准,适合严谨的场景。

2025-05-29 15:42:52 1374

原创 Python 进阶【三】:Excel操作

在数据处理领域,Excel是最常用的工具之一。大规模数据集重复性操作复杂计算和分析时,手动操作效率低下且容易出错。Python提供了多种强大的库来自动化这些流程。项目开始前明确需要处理的Excel版本(xls还是xlsx)评估需要的功能(是否需要图表、条件格式等)考虑数据量大小代码编写时封装常用操作为函数添加适当的异常处理编写清晰的注释性能关键点批量操作优于单个单元格操作尽量减少样式设置大文件使用只读/只写模式扩展学习# 使用pandas简化数据分析。

2025-05-29 14:32:27 757

原创 Python 进阶【二】:多进程编程

进程(Process):操作系统分配资源的最小单位。每个运行中的程序就是一个进程。线程(Thread):进程内最小的执行单元,可看作轻量级进程。💡 Python 的多线程受 GIL 限制,在 CPU 密集型任务中难以实现真正的并行。多进程是绕过 GIL、充分利用多核 CPU 的推荐方式。应用场景推荐方案原因说明CPU 密集型任务多进程绕过 GIL,真正多核并行I/O 密集型任务多线程 / 协程利用线程或异步释放等待时间多任务并发管理进程池(Pool)

2025-05-28 17:34:14 727

原创 Python进阶【一】 :线程、进程与协程

场景类型优选方案说明CPU 密集型多进程利用多核,规避 GILI/O 密集型多线程 / 协程异步执行阻塞操作,提升资源利用率网络并发协程 (asyncio万级并发连接,性能高GUI 程序子线程处理耗时任务避免主线程阻塞 UI特性线程进程协程是否受 GIL 限制是否是(但通常无影响)内存占用低高极低创建/销毁开销小大最小通信方式共享内存(需加锁)IPC(队列、管道)共享对象/await并行能力伪并行(受 GIL)真并行(多核)

2025-05-28 17:23:00 828

原创 I/O操作是什么?(超简单解释)

(如读写文件、网络请求)。正是因为要“等”,Python的多线程才能在I/O任务中提高效率!好的!我会用最简单的方式重新整理这些知识点,并用生活化的例子帮你理解。

2025-05-27 13:30:07 246

原创 Python基础语法(十四):Python常用内置模块及功能

Python标准库提供了丰富的内置模块,无需额外安装即可使用。

2025-05-26 16:52:43 971

原创 Python基础语法(十三):命名空间与作用域

想象命名空间是一个大型公寓楼,每个"住户"(变量名)都有自己独立的"房间"(对象)。

2025-05-26 14:06:56 293

原创 Python基础语法(十二):闭包与装饰器

闭包是一个函数对象,它记住了创建它的环境中的变量值,即使那个环境已经不存在了。简单来说,闭包是"带着环境的函数"。比如我们调用一个带有返回值的函数 x,此时函数 x 为我们返回一个函数 y,这个函数 y 就被称作闭包所有装饰器都是闭包,但并非所有闭包都是装饰器装饰器是闭包在函数增强方面的专门应用理解闭包是掌握装饰器的基础装饰器通过语法提供了一种优雅的使用闭包的方式装饰器和闭包的关系就像"特种兵"和"士兵"的关系——装饰器是闭包在特定领域的专业化应用,具有更明确的目的和更优雅的使用方式。

2025-05-22 15:47:57 1008

原创 Python基础语法(十一):迭代器与生成器

return num# 使用print(num) # 输出5,4,3,2,1总结:迭代器提供了一种高效、统一的方式来逐个访问数据,特别适合处理大数据或需要延迟计算的场景。生成器就像一个"会暂停的函数",它能在产生一个值后"暂停"执行,等到下次需要时再继续执行。你可以把它想象成一个"自动创建迭代器的机器"。

2025-05-22 10:10:57 739

原创 Python中的常量和变量分别是怎么定义的?

可以随时修改的值。

2025-05-21 16:24:49 250

原创 Python基础语法(十):枚举(Enum)

RED = 1GREEN = 2def describe(self): # 这里需要self,因为这是实例方法return f"class Color(Enum) : RED = 1 GREEN = 2 def describe(self) : # 这里需要self,因为这是实例方法 return f" {self . value } " print(Color . RED . describe()) # 调用实例方法。

2025-05-21 16:22:48 1220

原创 Python基础语法(九):错误与异常

解决方法:解决方法:解决方法:解决方法:2. 键错误(KeyError)解决方法:3. 属性错误(AttributeError)解决方法:4. 文件异常(IOError/FileNotFoundError)解决方法:四、异常处理机制1. 基本try-except结构2. 捕获多个异常3. else和finally子句五、自定义异常六、最佳实践建议精确捕获异常:避免捕获所有异常()记录异常信息:使用模块记录完整错误异常链:Python 3使用保留原始异常

2025-05-21 13:53:39 288

原创 Python基础语法(八):OS模块

模块是 Python 标准库中用于与操作系统交互的核心模块,它提供了丰富的函数来处理文件和目录、执行系统命令、管理进程环境等。模块是成为Python开发者的重要一步,它让你能够编写出更强大、更灵活的系统级脚本和应用程序。而不是硬编码路径分隔符。:先检查是否存在再删除。

2025-05-21 09:55:24 774

原创 Python基础语法(七):文件基本操作

在编程中,文件操作是最常见的任务之一。Python提供了内置的文件操作函数,使得文件处理变得简单高效。创建文件读取内容写入内容关闭文件文件定位。

2025-05-21 09:22:09 369

原创 机器学习分类

2025-05-15 16:00:05 508

原创 【机器学习中的基本术语:特征、样本、训练集、测试集、监督/无监督学习】

【机器学习中的基本术语:特征、样本、训练集、测试集、监督/无监督学习】

2025-04-03 15:59:32 716

原创 【机器学习的定义】

机器学习(Machine Learning, ML)是人工智能的一个子领域,研究如何让计算机系统。的算法科学,涵盖数据、模型、优化、评估等关键环节,广泛应用于各行各业,推动AI技术的进步。,可以是结构化数据(表格)、非结构化数据(图像、文本)、时序数据等。:机器学习要解决的问题,如分类、回归、聚类、强化学习等。经验(E)**而提高,就称它从经验中学习。“一个计算机程序在**任务(T)

2025-04-03 15:56:11 653

原创 【当访问 `http://localhost:3000` 出现 404 The requested path could not be found 怎么解决?】

当访问 `http://localhost:3000` 出现 **404 "The requested path could not be found"** 时,通常是由于 **静态服务器未正确处理前端路由** 或 **构建结果路径配置错误**。

2025-04-02 14:11:00 958

原创 【为什么本地开发正常,打包后还要测试dist?深入解析VitePress生产部署前的关键验证步骤】

项目在本地可以run起来,然后打包dist不就行了吗?确实,既然项目已经通过能在本地运行,为什么还要额外用serve测试打包后的dist呢?这涉及到和的关键差异。

2025-04-02 13:45:31 777

原创 git和VScode

回到【源代码管理】--->【远程】---【添加远程存储库】,意思是直接将本地的代码存档和gitee上面远程的代码存档之间通过一个地址链接给它关联起来。要配合gitee(也可以是其他平台,以gitee举例)使用,首先创造一个gitee账号,复制邮箱和用户名。【windows】--->【用户】--->找到【.gitconfig】--->用VScode打开。在VScode中找到【工具栏】-->【终端】--->【新建终端】在终端输入git提供给我们的命令,将账号和邮箱改为自己的。git保存的是代码的进度。

2025-04-01 22:38:33 901

原创 CMD(命令提示符)、PowerShell 和 Windows Terminal

在 Windows 系统中,CMD(命令提示符)、PowerShell 和 Windows Terminal 是三种不同的命令行工具,它们在功能、设计理念和使用场景上有显著区别。多标签页支持:可同时运行多个命令行实例(CMD、PowerShell、WSL、Azure Cloud Shell 等)。集成多种环境:统一管理不同的 Shell(如 CMD、PowerShell、Linux 子系统)。仅支持基础的 批处理命令(如 dir、copy、ipconfig 等)。系统管理自动化(如批量操作、远程管理)。

2025-04-01 21:17:25 593

原创 从一个指定的网站(在这个例子中是 http://www.xvipxs.net/)抓取网页内容

【代码】从一个指定的网站(在这个例子中是 http://www.xvipxs.net/)抓取网页内容。

2024-12-13 15:37:41 129

原创 Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming the ssl certificate

问题:解决方法:关掉VPN(梯子)

2024-12-13 14:38:24 635 1

原创 Python基础语法(六):数据容器

将字符串hello python itheima itcast进行split切分后得到: ['hello', 'python', 'itheima', 'itcast'],类型是: <class 'list'>print(f"将字符串{my_str}进行split切分后得到: {my_str_list},类型是: {type(my_str_list)}")print(f"t1的类型是:{type(t1)},t1的内容是:{t1}")t3的类型是:<class 'tuple'>,t1的内容是:()

2024-12-05 15:13:43 786

原创 什么是CMMI

CMMI(Capability Maturity Model Integration,即能力成熟度模型集成模型)是一种用于评估和改进组织在软件开发、系统集成、项目管理等方面过程能力的框架。评估过程包括文档审查、人员访谈和过程审查等多个方面,旨在全面了解组织的软件开发过程,并确定其是否符合CMMI的要求。CMMI作为全球公认的软件产品进军国际市场的准入凭证,不仅是对产品卓越质量的认证,更是推动软件过程持续改进的宝贵途径。CMMI模型为组织提供了一个全面的框架,用于评估和改进其过程能力。过程的持续改进和创新。

2024-12-05 15:11:56 2057

原创 Python基础语法(五):对象

成员方法使用——self。

2024-12-02 13:47:36 226

原创 Python基础语法(四):模块

不同模块同名采用就近原则。

2024-12-02 13:46:42 266

原创 Python基础语法(三):函数

参数函数定义中,提供的x和y,称之为: 形式参数(形参),表示函数声明将要使用2个参数参数之间使用逗号进行分隔函数调用中,提供的1和3,称之为:实际参数(实参),表示函数执行时真正使用的参数值传入的时候,按照顺序传入数据,使用逗号分隔result=x+yprint(f"{x}+{y}的计算结果是:{result}")#调用add(1,3)---------1+3的计算结果是:4。

2024-11-27 14:12:46 488

原创 Python基础语法(二)

—进行逻辑判断,是生活中常见的行为。同样,在程序中,进行逻辑判断也是最为基础的功能。进行判断,只有两个结果。

2024-11-27 11:15:18 1036

原创 CSDN设置成黑色背景(谷歌 Edge)

一.谷歌浏览器浏览器地址输入:Chrome://flags 搜索框输入:enable-force-dark 将default 改成 enabled,点击重启浏览器 二.Edge浏览器浏览器地址输入:edge://flags 搜索里面输入Auto Dark Mode for Web Contents 将default 改成 enabled,点击重启浏览器

2024-11-27 10:13:18 1056

原创 pycharm安装中文插件

1.打开pycharm,file---->settings。2.选择plugin。3.安装完中文插件后。

2024-11-22 09:52:24 1183

原创 Git Github Gitlab与Gitee的关系

------Gitlab用于企业代码管理,主要是用于企业内部程序员的协同开发和分布式代码管理。-------前者是国外建立,资源更丰富,后者是国内建立,免费功能更多。-------项目通过Git可以切换到任意代码版本。-------可以将你的代码仓库提交上去保存。是基于Git技术构建的远程仓库网站。

2024-11-21 11:26:48 1591

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除