自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 人工智能的线性代数基础

n维向量可表示为,比如:一张28×28的手写数字灰度图,展开后是784个像素值,对应784维向量;一个人的特征(身高、体重、年龄),对应3维向量。AI中优先用列向量(元素垂直排列),方便后续矩阵运算匹配。记为A∈Rm×nA∈Rm×n(m行n列,元素为实数),比如:100个手写数字样本(每个784维),构成100×784矩阵(每行一个样本);神经网络隐藏层权重,用矩阵存储(行数=输出维度,列数=输入维度)。

2026-01-22 09:25:44 849

原创 python爬虫入门:你的第一个爬虫将在这里诞生(四)——Ajax数据抓取

Ajax(Asynchronous JavaScript and XML)即异步JavaScript和XML,是一种前端异步请求技术,核心是在不刷新整个网页的前提下,通过JavaScript向服务器发送请求、获取数据,并局部更新页面内容。异步、无刷新、数据按需加载;数据格式:早期用XML,现在主流是JSON(轻量、易解析,爬虫最常处理);应用场景:电商商品列表、短视频下拉加载、评论分页、股票实时数据等。

2026-01-20 11:26:56 1755

原创 python爬虫入门:你的第一个爬虫将在这里诞生(三)——实训:爬取豆瓣TOP100电影信息

所有电影条目都嵌套在class="grid_view"的ol标签下,且大部分条目内的关键信息(排名、名称、评分)都有。”的方式查看属性,比如,电影名称的属性就是"title",评分的属性就是"rating_num"。(注意:如果没有class属性,那么就要通过其他方式来编写xpath,比如内容等,详见。需提取的核心信息:排名、电影名称、评分、评价人数、简介、上映年份、导演 / 主演。但是,依照这个方法,大多数时候获取到的不是如同代码中简洁的xpath,反而是形如。,易失效,仅适合临时调试,

2026-01-19 15:26:53 2266

原创 python爬虫入门:你的第一个爬虫将在这里诞生(二)——基本库re、lxml、beautifulsoup

XPath(XML Path Language)是用于在XML/HTML文档中定位节点的查询语言,也是Python爬虫解析网页的核心工具之一。它通过路径表达式精准选取文档中的元素/属性,相比正则表达式更简洁、可读性更强,配合lxml库能高效完成网页数据提取。etree是lxml库的核心模块,专为XML/HTML解析设计,能将非结构化的网页文本转换为可遍历的节点树结构,是Python爬虫中结合XPath提取数据的核心工具。

2026-01-16 09:50:02 2020

原创 python爬虫入门:你的第一个爬虫将在这里诞生(一)——基本库urllib、requests

urllib:Python内置的HTTP请求基础库,无需额外安装,核心能力覆盖「发送请求、解析URL、处理异常、配置代理/Cookie/认证」,能满足静态网页爬取等基础需求,但API设计偏底层,需要手动拼接参数、构造请求对象。requests:第三方“人类友好型”请求库,完全封装urllib底层逻辑,API极简(一行代码发请求),原生支持请求头、Cookie、代理、认证等配置,是爬虫开发的首选工具,仅需提前通过安装。核心场景urllib 核心操作requests 核心操作通用注意点。

2026-01-15 19:35:28 2322

原创 re库及正则表达式的介绍及实战

Python的re库是处理正则表达式的内置轻量高效:内置库无需依赖,匹配速度快;功能全面:覆盖爬虫所需的“匹配、提取、替换”所有场景;易用性强:API设计简洁,结合爬虫数据提取场景极易上手。正则表达式的核心逻辑:无需死记符号,关键是「特征拆解」—— 先明确提取需求,分析目标字符串的格式特征,再将特征转化为正则符号组合,最后通过测试调整验证规则,复杂场景需分层拆解 “固定格式 + 可变内容 + 干扰项”,结合分组、断言等高级语法优化规则。re 库方法的场景化使用。

2026-01-14 12:07:26 1049

原创 爬虫前置知识:HTML基础

HTML 对爬虫的核心价值:Python 是爬虫获取网页数据的 “工具”,而 HTML 是网页内容的“结构化图纸”,学会 HTML 才能让爬虫从杂乱的网页数据中精准提取目标信息,而非盲目抓取全部内容。HTML 的核心逻辑:HTML 是标记语言而非编程语言,核心由 “基础骨架+ 标签 / 属性 / 内容” 构成;标签分结构标签(划分网页区域)和内容标签(展示具体信息),每个标签都有明确语义和用途。爬虫解析 HTML 的关键。

2026-01-10 09:30:23 1933

原创 Markdown入门:30分钟掌握高效写作

本文是一篇Markdown基础教程,介绍了这种轻量级标记语言的核心语法。内容涵盖标题、段落、强调、引用、列表、代码、分隔线、链接、图片、表格、转义字符和数学公式等12个常用功能。教程采用实例演示的方式,通过代码块和渲染效果对比,直观展示每种语法的使用方法和注意事项。特别强调了Markdown简洁高效的特点,以及如何通过合理使用各种格式使文档结构更清晰。文章还补充了表情符号的使用技巧,适合想要快速掌握Markdown的新手学习参考。

2026-01-09 14:33:12 770

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除