Superfei_-CSDN博客

原创人工智能的线性代数基础

n维向量可表示为，比如：一张28×28的手写数字灰度图，展开后是784个像素值，对应784维向量；一个人的特征（身高、体重、年龄），对应3维向量。AI中优先用列向量（元素垂直排列），方便后续矩阵运算匹配。记为A∈Rm×nA∈Rm×n（m行n列，元素为实数），比如：100个手写数字样本（每个784维），构成100×784矩阵（每行一个样本）；神经网络隐藏层权重，用矩阵存储（行数=输出维度，列数=输入维度）。

2026-01-22 09:25:44 849

原创 python爬虫入门：你的第一个爬虫将在这里诞生（四）——Ajax数据抓取

Ajax（Asynchronous JavaScript and XML）即异步JavaScript和XML，是一种前端异步请求技术，核心是在不刷新整个网页的前提下，通过JavaScript向服务器发送请求、获取数据，并局部更新页面内容。异步、无刷新、数据按需加载；数据格式：早期用XML，现在主流是JSON（轻量、易解析，爬虫最常处理）；应用场景：电商商品列表、短视频下拉加载、评论分页、股票实时数据等。

2026-01-20 11:26:56 1755

原创 python爬虫入门：你的第一个爬虫将在这里诞生（三）——实训：爬取豆瓣TOP100电影信息

所有电影条目都嵌套在class="grid_view"的ol标签下，且大部分条目内的关键信息（排名、名称、评分）都有。”的方式查看属性，比如，电影名称的属性就是"title"，评分的属性就是"rating_num"。（注意：如果没有class属性，那么就要通过其他方式来编写xpath，比如内容等，详见。需提取的核心信息：排名、电影名称、评分、评价人数、简介、上映年份、导演 / 主演。但是，依照这个方法，大多数时候获取到的不是如同代码中简洁的xpath，反而是形如。，易失效，仅适合临时调试，

2026-01-19 15:26:53 2266

原创 python爬虫入门：你的第一个爬虫将在这里诞生（二）——基本库re、lxml、beautifulsoup

XPath（XML Path Language）是用于在XML/HTML文档中定位节点的查询语言，也是Python爬虫解析网页的核心工具之一。它通过路径表达式精准选取文档中的元素/属性，相比正则表达式更简洁、可读性更强，配合lxml库能高效完成网页数据提取。etree是lxml库的核心模块，专为XML/HTML解析设计，能将非结构化的网页文本转换为可遍历的节点树结构，是Python爬虫中结合XPath提取数据的核心工具。

2026-01-16 09:50:02 2020

原创 python爬虫入门：你的第一个爬虫将在这里诞生（一）——基本库urllib、requests

urllib：Python内置的HTTP请求基础库，无需额外安装，核心能力覆盖「发送请求、解析URL、处理异常、配置代理/Cookie/认证」，能满足静态网页爬取等基础需求，但API设计偏底层，需要手动拼接参数、构造请求对象。requests：第三方“人类友好型”请求库，完全封装urllib底层逻辑，API极简（一行代码发请求），原生支持请求头、Cookie、代理、认证等配置，是爬虫开发的首选工具，仅需提前通过安装。核心场景urllib 核心操作requests 核心操作通用注意点。

2026-01-15 19:35:28 2322

原创 re库及正则表达式的介绍及实战

Python的re库是处理正则表达式的内置轻量高效：内置库无需依赖，匹配速度快；功能全面：覆盖爬虫所需的“匹配、提取、替换”所有场景；易用性强：API设计简洁，结合爬虫数据提取场景极易上手。正则表达式的核心逻辑：无需死记符号，关键是「特征拆解」—— 先明确提取需求，分析目标字符串的格式特征，再将特征转化为正则符号组合，最后通过测试调整验证规则，复杂场景需分层拆解 “固定格式 + 可变内容 + 干扰项”，结合分组、断言等高级语法优化规则。re 库方法的场景化使用。

2026-01-14 12:07:26 1049

原创爬虫前置知识：HTML基础

HTML 对爬虫的核心价值：Python 是爬虫获取网页数据的 “工具”，而 HTML 是网页内容的“结构化图纸”，学会 HTML 才能让爬虫从杂乱的网页数据中精准提取目标信息，而非盲目抓取全部内容。HTML 的核心逻辑：HTML 是标记语言而非编程语言，核心由 “基础骨架+ 标签 / 属性 / 内容” 构成；标签分结构标签（划分网页区域）和内容标签（展示具体信息），每个标签都有明确语义和用途。爬虫解析 HTML 的关键。

2026-01-10 09:30:23 1933

原创 Markdown入门：30分钟掌握高效写作

本文是一篇Markdown基础教程，介绍了这种轻量级标记语言的核心语法。内容涵盖标题、段落、强调、引用、列表、代码、分隔线、链接、图片、表格、转义字符和数学公式等12个常用功能。教程采用实例演示的方式，通过代码块和渲染效果对比，直观展示每种语法的使用方法和注意事项。特别强调了Markdown简洁高效的特点，以及如何通过合理使用各种格式使文档结构更清晰。文章还补充了表情符号的使用技巧，适合想要快速掌握Markdown的新手学习参考。

2026-01-09 14:33:12 770

Superfei_的博客