——米-CSDN博客

原创一文看懂卷积神经网络：从 “笨办法” 到 AI 识图高手

说到底，CNN 的核心优势就是 “懂图像”—— 它不像传统模型那样浪费力气，而是像人眼一样，从局部细节入手，通过参数共享、池化等技巧，高效提取有用特征，最后精准识别目标。现在，CNN 早已不止用于 “猫狗分类”，从人脸识别、自动驾驶，到医学影像诊断（比如识别 X 光片里的病灶），再到 AI 绘画，到处都有它的身影。下次再用手机扫码、刷脸支付时，你就知道，背后正是这个 “会看东西” 的 CNN 在默默干活啦！

2025-09-19 15:39:19 419

原创多层感知机

多层感知机通过增加隐藏层和使用激活函数，突破了感知机只能处理线性问题的局限，成为深度学习的基础模型。它的核心是通过前向传播和反向传播，不断调整参数来优化模型，同时要避免过拟合和欠拟合的问题。常用的激活函数有 Sigmoid、Tanh、ReLU，处理多分类任务时会用到 Softmax 函数，而隐藏层数量和每个隐藏层的大小，是需要我们根据任务调整的超参数。

2025-09-18 16:17:31 469

原创线性回归与 Softmax 回归：深度学习基础模型及训练逻辑解析

维度线性回归Softmax 回归核心任务预测连续值（如房价、销量）划分离散类别（如图像、文本分类）输出结果单个连续数各分类的概率（总和为 1）核心函数线性公式y = Xw + b线性公式 + Softmax 函数损失函数平方损失、L1 损失、Huber 损失交叉熵损失模型本质单层神经网络单层全连接神经网络（输出层神经元数 = 类别数）

2025-09-17 15:09:06 862 1

原创聊点实在的：支持向量机（SVM）到底是啥？

常用的是高斯核函数，能轻松处理这种“低维不可分”的情况，就像给数据加了个“透视挂”，一下就能找到分隔边界。咱们先抛开“机器学习算法”这种绕口的说法，用大白话聊聊支持向量机（SVM）——简单说，它就是个“找线高手”，核心任务就一件事：在一堆数据里，找条最合适的“线”（或者高维空间里的“面”），把不同类别的数据分开。简单说，SVM就是个“追求极致稳定的分隔高手”，不管是简单的分类任务，还是有点复杂的高维数据，都能搞定——这也是它直到现在还常用的原因。1. 数据里有“小噪音”：用“软间隔”松松手。

2025-08-26 19:44:31 334

原创小白也能看懂的朴素贝叶斯：从原理到实战，手把手教你用它做分类

看特征类型：离散计数用多项式，连续数值用高斯，0/1 二值用伯努利；调关键参数：主要调 alpha（平滑）、fit_prior（是否用先验）；训练预测：用 sklearn 的 fit () 训练，predict () 预测，score () 看准确率；场景匹配：文本分类、拼写纠错、垃圾邮件过滤优先用它，复杂任务再换其他算法。怎么样？是不是发现朴素贝叶斯一点都不 “高冷”？它就像机器学习里的 “万金油入门工具”，简单、好用、能解决不少实际问题。

2025-08-25 19:33:00 713

原创聊聊线性回归：用直线 “猜” 答案的小技巧

线性回归就像用一把尺子在数据中找规律，它用最简单的直线（或平面）描述变量之间的关系，通过最小化误差找到最优解，再用 R² 等指标判断效果。虽然它比不上复杂模型那么 “聪明”，但胜在简单易懂、计算快，在房价预测、销量估计等很多实际问题中都很好用。下次再听到 “线性回归”，是不是觉得亲切多了？

2025-08-22 18:41:07 300

原创白话机器学习：聚类算法之 K 均值篇

有个叫 CH 指标的标准，简单说就是看同一阵营里的点是不是靠得近（类内紧密度），不同阵营之间是不是离得远（类间分离度）。聚类和我们平时说的分类不一样，分类是知道要分成 “T 恤、裤子、袜子” 这些类别，而聚类是在不知道类别的情况下，把长得像的数据归到一起。就像给一堆打乱的积木分类，不用知道它们叫什么，只要把形状、颜色相似的放一起就行。你有没有整理衣柜的经历？平时我们用的推荐系统，比如 “你可能喜欢的商品”，背后就可能用到聚类算法 —— 把和你兴趣相似的用户归为一类，再推荐大家都喜欢的东西，是不是很神奇？

2025-08-21 19:28:12 189

原创白话机器学习：集成算法篇

最典型的就是随机森林，它就像一片树林，每棵树都是一个决策高手，有的看数据里的这个特征，有的看那个特征，最后大家投票选结果。先让一个基础差的 “弱学习器” 试试水，发现哪里学不好（比如某些数据总分类错），就给这些难搞的数据加重 “戏份”，让下一个学习器重点攻克。简单说，集成算法就是找一群 “学习高手”（也就是个体学习器），让它们各自学习，最后把它们的答案综合起来，得到一个更靠谱的结果。一道难题拿不准答案，问了一个学霸可能还不放心，但要是问了好几个学霸，把他们的答案综合一下，正确率就高多了。

2025-08-21 19:26:23 125

原创白话讲解 Pandas 处理缺失值

通过 pandas 的 isnull () 函数，咱们能轻松找到数据里的缺失值，然后再根据数据的具体情况，用 dropna () 、fillna () 、interpolate () 这些函数，选择合适的方法把缺失值处理好。缺失值，简单来说，就是数据里那些该有值却没值的地方。比如说，你有一组按顺序排列的数值，中间有个值缺失了，它就可以根据前后的数据，用数学方法算出一个比较合适的值给补上。比如说，你收集了全班同学的考试成绩，结果发现有几个同学的成绩没记录上，这几个没成绩的地方，在数据里就叫缺失值。

2025-08-20 19:38:20 850

原创一文看懂决策树：机器学习里的 “选择题专家”

在机器学习的世界里，决策树就像一位擅长做选择题的专家，总能根据数据特征一步步做出判断。今天咱们就用大白话聊聊这个实用的算法。

2025-08-19 19:32:36 182

原创决策树：像做选择题一样做分类

决策树就像咱们平时做决定的思路，把复杂问题拆成一串小选择题，用 “熵” 看混乱程度，用 “信息增益” 挑最好的问题。它的好处是简单易懂，分类过程一目了然，就像跟着流程图走，哪怕不懂算法的人也能看明白。不管是给电影分类、判断是否是鱼类，还是生活中的各种决策场景，决策树都能帮咱们理清楚思路，一步步找到答案。下次再听到 “决策树”，就想想那些让你做选择的选择题流程，其实原理都差不多！

2025-08-18 15:08:46 744

原创 KNN算法在电影分类中的应用与实践

KNN 算法就像咱们生活中 “看邻居猜类别” 的思路，简单又实用。核心就是算距离、找邻居、看多数。只要选对 K 值和距离方法，就能把很多东西分清楚 —— 不光是电影，还有花的种类、水果的品种，甚至预测天气、判断疾病都能用。下次再听到 “KNN”，就知道它其实就是个 “找邻居投票” 的聪明方法啦！

2025-08-18 14:17:55 321

原创 Numpy：数据界的“变形金刚“，玩转正太、御姐和壮汉的魔幻操作

比如一个4×3的"大块头"和一个1×3的"小不点"，Numpy会悄悄给小不点"扩容"，让它变成4×3的同款身材，然后俩人大摇大摆地做加法。这货可不是普通的计算器，简直是数据界的变形金刚，不管是娇小可爱的一维数组"正太"，还是身材火辣的二维数组"御姐"，甚至是自带气场的高维数组"壮汉"，到了它手里都能玩出花来。比如两个2×2的数组，vstack后变成4×2，hstack后变成2×4，想怎么拼就怎么拼。transpose()函数帮你实现，就像把"御姐"变成"帅哥"，性别都给你换了（其实是维度互换啦）。

2025-08-01 19:43:34 338

原创 NumPy：数据界的“全能工具箱”，让你的代码跑起来像开了挂

2. `zeros()`和`ones()`：全是0或全是1的“整齐队列” - `np.zeros(5)`：变出5个0，像`[0,0,0,0,0]`（默认是浮点数，带个小数点）。- `np.ones([3,2])`：变出3行2列全是1的表格，像`[[1,1],[1,1],[1,1]]`。4. `eye()`：对角线是1的“身份牌” `np.eye(3)`会变出一个3x3的矩阵，对角线是1，其他地方是0： `[[1,0,0], [0,1,0], [0,0,1]]` 像不像身份证上的“本人标识”？

2025-07-31 19:28:40 262

原创用BeautifulSoup轻松搞定网页

还能根据属性来找，比如找class是`lavalamp-item`的标签，用`soup.find_all(class_='lavalamp-item')`就行，注意这里class后面加了个下划线，因为class是Python的关键字，不加会出错。标签里的属性也能轻松拿到，比如链接地址`href`，用`soup.li.a.attrs['href']`或`soup.li.a.get('href')`都能搞定，后者更不容易出错。想看看标签里的文字，加个`.string`就行，像`soup.li.string`。

2025-07-30 18:29:52 890

原创利用PyMySQL实现爬虫数据与MySQL的交互

以创建学生表students为例，需定义字段名、类型等信息，通过执行CREATE TABLE语句实现，如sql = 'create table if not exists students(id varchar(255) not null, name varchar(255), age int not null, primary key(id))'，再用cursor.execute(sql)执行。操作结束后，用cursor.close()和connect.close()关闭游标和连接，释放资源。

2025-07-29 19:59:28 896

原创聊聊MySQL综合练习：从建表到查数据的那些事儿

比如"找那些MySQL基础比Python基础考得好的学生"，这就得先从成绩表里找到这两门课的分数，再对比同一个学生的这两个分数，还得把学生的基本信息也显示出来。成绩表得有"学生ID"和"课程ID"，分别关联学生表和课程表，不然谁的成绩、哪门课的成绩都分不清。比如查"没选课的学生"，就得用左连接，不然直接关联成绩表的话，没选课的学生就查不出来；这套MySQL综合练习练下来，最大的收获不是记住了多少语句，而是明白了数据库的"套路"——表怎么设计才合理，数据怎么关联才清晰，不同的查询需求该用什么方法实现。

2025-07-28 16:41:39 274

原创 MySQL 数据库基础内容总结

执行 SELECT 子句，删除不包含在指定字段中的字段，若有 DISTINCT 则执行去重。（计数），这些函数对一组数据进行处理，返回单个结果，且都忽略 NULL 值。若有 WHERE 子句，对工作表进行条件筛选，删除不符合条件的记录。统计表中的总行数，只要有一列数据不为空就计 1 次，使用较多。，其中 WHERE 条件可选，若不添加则更新表中所有数据。，WHERE 条件同样可选，不添加则删除表中所有数据。若有 HAVING 子句，对分组后的结果表按条件筛选。（大于等于）等，用于比较数据和指定条件。

2025-07-25 19:20:17 314

原创聊聊 MySQL：从 “啥是数据库” 到 “怎么用它存数据”

它不是乱糟糟堆数据的，而是 “有组织” 的 —— 就像图书馆的书架，按类别、编号摆得整整齐齐，找起来特别方便。而且这个仓库是 “可共享” 的，比如公司的员工表，HR 能看、财务要用来发工资、老板能查人数，大家都能用，还能统一管理。比如 “学号” 是字符串（VARCHAR），“年龄” 是整数（INT），“生日” 是日期（DATE）。中间会让你设个密码，这个密码一定要记牢，就像你家仓库的钥匙，丢了就进不去了。“主键”（PRIMARY KEY）：给每条记录一个唯一的 “身份证”，比如学号，不能重复，也不能空着。

2025-07-24 19:22:45 289

原创聊聊爬虫那些事儿：从工具到实战，小白也能懂

平时咱们上网，总有些时候想把网页上的信息批量存下来，比如把喜欢的图书信息、歌曲榜单整理成表格。这背后是网站给你发了个 “小纸条”（Cookies），记录着你的登录状态。就像你在网页上点 “选择文件” 再 “上传”，代码里用。拿到网页内容后，下一步是 “挑” 出咱们要的信息（比如书名、价格）。之后再访问邮箱里的其他页面，不用再登录，直接就能看。模块就是干这个的，能把网页代码变成可操作的 “对象”，再用 XPath 提取信息。试试吧，当看到网页上的信息变成自己表格里的内容时，还挺有成就感的～

2025-07-23 16:56:53 453

原创网络爬虫的伦理边界与技术实践：从Robots协议到数据存储

本文将从Robots协议这一行业规范出发，探讨爬虫开发中的伦理边界，并结合实际技术实践，分析数据存储的最佳方案。Robots协议作为行业自律的体现，提醒我们在追求技术效率的同时，不忘尊重他人权益，共同维护互联网的健康发展环境。在数据爆炸的时代，负责任地使用爬虫技术，不仅是对他人的尊重，也是对行业可持续发展的贡献。隐私泄露：爬虫技术可能突破简单的访问控制，获取本应受保护的个人隐私数据，这不仅违反道德准则，也可能触犯日益严格的数据保护法规（如GDPR）。严格遵守Robots协议，尊重网站所有者的数据权利。

2025-07-22 17:58:36 1073

原创 HTML入门：从零开始学网页制作

主体部分，我使用<center></center>，实现整体居中，然后使用h1--h6选择标题文字大小，之后使用超链接标签<a href></a>放入四个网址，并在每个超链接标签下放入我选择的图片，并编辑图片大小。这是我完成的整体代码，包括一些简单的功能，包括网页名称，文本标签，插入图片，表格等简单功能。HTML指的是超文本标记语言，可以加入图片，声音，视频等各种内容。创建表格，这个表格没有明确意义，仅仅为了查看表格功能是否实现，后搭配<td>（单元格）<tr>（行）使用。：标题标签，数字越小字号越大。

2025-07-21 17:21:06 300

原创 Requests实战：模拟登录与深层次爬取

cookie其实是存储在浏览器中的纯文本，存储在cookie中的数据，每次都会被浏览器自动放在http请求中。cookie最典型的应用就是我们每次自动输入用户名和密码的“记住密码”，以便我们下一次直接登录。建议多次测试这个过程，确保获取的信息是稳定可用的，因为有些网站会使用动态token或加密参数。在网络面板中，勾选"Preserve log"(保留日志)选项，这个功能可以确保页面跳转后不会清空之前的网络请求记录。在登录界面，输入您的学号作为用户名，并输入对应的密码。保持开发者工具开启状态，点击登录按钮。

2025-07-18 15:07:44 213

原创网页图片抓取与手机归属地查询

今天第二课学习的内容还是爬虫应用开发，就昨天内容再次精进一些，写下了两端代码，主要功能是网页图片的爬取和手机归属地的查询，依旧上代码。第一段 Python 代码主要用于从一个网站（）获取关于特定手机号码的信息。下面主要解释一下关键代码发送 HTTP GET 请求到指定 URL，并返回网页内容。url：要请求的网页地址。time：超时时间，默认 10 秒。User-Agent：模拟浏览器发送请求，避免被网站识别为爬虫。：根据网页内容自动推断编码格式。：如果响应状态码不是 200，抛出异常。

2025-07-17 16:25:37 474

原创第一课：静态网页爬取

我代码中设置的网址是http://val.qq.com，由此程序可直接获取该网页源代码，将获取的代码粘贴复制到一个新建文本，然后更改文档名html，之后我们可以点击此快捷方式直接进入该网页变成瓦学弟。使用apparent_encoding自动检测响应内容的编码将响应编码设置为检测到的编码，确保`.text`能正确解码内容。今天第一课学习的内容是爬虫应用的开发，简单了解了网络爬虫的概念，分类等，还有网页的相关概念（HTTP）。导入Python的requests库，这是一个用于发送HTTP请求的流行第三方库。

2025-07-16 14:41:01 336 1

mez666的博客