自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 一文看懂卷积神经网络:从 “笨办法” 到 AI 识图高手

说到底,CNN 的核心优势就是 “懂图像”—— 它不像传统模型那样浪费力气,而是像人眼一样,从局部细节入手,通过参数共享、池化等技巧,高效提取有用特征,最后精准识别目标。现在,CNN 早已不止用于 “猫狗分类”,从人脸识别、自动驾驶,到医学影像诊断(比如识别 X 光片里的病灶),再到 AI 绘画,到处都有它的身影。下次再用手机扫码、刷脸支付时,你就知道,背后正是这个 “会看东西” 的 CNN 在默默干活啦!

2025-09-19 15:39:19 419

原创 多层感知机

多层感知机通过增加隐藏层和使用激活函数,突破了感知机只能处理线性问题的局限,成为深度学习的基础模型。它的核心是通过前向传播和反向传播,不断调整参数来优化模型,同时要避免过拟合和欠拟合的问题。常用的激活函数有 Sigmoid、Tanh、ReLU,处理多分类任务时会用到 Softmax 函数,而隐藏层数量和每个隐藏层的大小,是需要我们根据任务调整的超参数。

2025-09-18 16:17:31 469

原创 线性回归与 Softmax 回归:深度学习基础模型及训练逻辑解析

维度线性回归Softmax 回归核心任务预测连续值(如房价、销量)划分离散类别(如图像、文本分类)输出结果单个连续数各分类的概率(总和为 1)核心函数线性公式y = Xw + b线性公式 + Softmax 函数损失函数平方损失、L1 损失、Huber 损失交叉熵损失模型本质单层神经网络单层全连接神经网络(输出层神经元数 = 类别数)

2025-09-17 15:09:06 862 1

原创 聊点实在的:支持向量机(SVM)到底是啥?

常用的是高斯核函数,能轻松处理这种“低维不可分”的情况,就像给数据加了个“透视挂”,一下就能找到分隔边界。咱们先抛开“机器学习算法”这种绕口的说法,用大白话聊聊支持向量机(SVM)——简单说,它就是个“找线高手”,核心任务就一件事:在一堆数据里,找条最合适的“线”(或者高维空间里的“面”),把不同类别的数据分开。简单说,SVM就是个“追求极致稳定的分隔高手”,不管是简单的分类任务,还是有点复杂的高维数据,都能搞定——这也是它直到现在还常用的原因。1. 数据里有“小噪音”:用“软间隔”松松手。

2025-08-26 19:44:31 334

原创 小白也能看懂的朴素贝叶斯:从原理到实战,手把手教你用它做分类

看特征类型:离散计数用多项式,连续数值用高斯,0/1 二值用伯努利;调关键参数:主要调 alpha(平滑)、fit_prior(是否用先验);训练预测:用 sklearn 的 fit () 训练,predict () 预测,score () 看准确率;场景匹配:文本分类、拼写纠错、垃圾邮件过滤优先用它,复杂任务再换其他算法。怎么样?是不是发现朴素贝叶斯一点都不 “高冷”?它就像机器学习里的 “万金油入门工具”,简单、好用、能解决不少实际问题。

2025-08-25 19:33:00 713

原创 聊聊线性回归:用直线 “猜” 答案的小技巧

线性回归就像用一把尺子在数据中找规律,它用最简单的直线(或平面)描述变量之间的关系,通过最小化误差找到最优解,再用 R² 等指标判断效果。虽然它比不上复杂模型那么 “聪明”,但胜在简单易懂、计算快,在房价预测、销量估计等很多实际问题中都很好用。下次再听到 “线性回归”,是不是觉得亲切多了?

2025-08-22 18:41:07 300

原创 白话机器学习:聚类算法之 K 均值篇

有个叫 CH 指标的标准,简单说就是看同一阵营里的点是不是靠得近(类内紧密度),不同阵营之间是不是离得远(类间分离度)。聚类和我们平时说的分类不一样,分类是知道要分成 “T 恤、裤子、袜子” 这些类别,而聚类是在不知道类别的情况下,把长得像的数据归到一起。就像给一堆打乱的积木分类,不用知道它们叫什么,只要把形状、颜色相似的放一起就行。你有没有整理衣柜的经历?平时我们用的推荐系统,比如 “你可能喜欢的商品”,背后就可能用到聚类算法 —— 把和你兴趣相似的用户归为一类,再推荐大家都喜欢的东西,是不是很神奇?

2025-08-21 19:28:12 189

原创 白话机器学习:集成算法篇

最典型的就是随机森林,它就像一片树林,每棵树都是一个决策高手,有的看数据里的这个特征,有的看那个特征,最后大家投票选结果。先让一个基础差的 “弱学习器” 试试水,发现哪里学不好(比如某些数据总分类错),就给这些难搞的数据加重 “戏份”,让下一个学习器重点攻克。简单说,集成算法就是找一群 “学习高手”(也就是个体学习器),让它们各自学习,最后把它们的答案综合起来,得到一个更靠谱的结果。一道难题拿不准答案,问了一个学霸可能还不放心,但要是问了好几个学霸,把他们的答案综合一下,正确率就高多了。

2025-08-21 19:26:23 125

原创 白话讲解 Pandas 处理缺失值

通过 pandas 的 isnull () 函数,咱们能轻松找到数据里的缺失值,然后再根据数据的具体情况,用 dropna () 、fillna () 、interpolate () 这些函数,选择合适的方法把缺失值处理好。缺失值,简单来说,就是数据里那些该有值却没值的地方。比如说,你有一组按顺序排列的数值,中间有个值缺失了,它就可以根据前后的数据,用数学方法算出一个比较合适的值给补上。比如说,你收集了全班同学的考试成绩,结果发现有几个同学的成绩没记录上,这几个没成绩的地方,在数据里就叫缺失值。

2025-08-20 19:38:20 850

原创 一文看懂决策树:机器学习里的 “选择题专家”

在机器学习的世界里,决策树就像一位擅长做选择题的专家,总能根据数据特征一步步做出判断。今天咱们就用大白话聊聊这个实用的算法。

2025-08-19 19:32:36 182

原创 决策树:像做选择题一样做分类

决策树就像咱们平时做决定的思路,把复杂问题拆成一串小选择题,用 “熵” 看混乱程度,用 “信息增益” 挑最好的问题。它的好处是简单易懂,分类过程一目了然,就像跟着流程图走,哪怕不懂算法的人也能看明白。不管是给电影分类、判断是否是鱼类,还是生活中的各种决策场景,决策树都能帮咱们理清楚思路,一步步找到答案。下次再听到 “决策树”,就想想那些让你做选择的选择题流程,其实原理都差不多!

2025-08-18 15:08:46 744

原创 KNN算法在电影分类中的应用与实践

KNN 算法就像咱们生活中 “看邻居猜类别” 的思路,简单又实用。核心就是算距离、找邻居、看多数。只要选对 K 值和距离方法,就能把很多东西分清楚 —— 不光是电影,还有花的种类、水果的品种,甚至预测天气、判断疾病都能用。下次再听到 “KNN”,就知道它其实就是个 “找邻居投票” 的聪明方法啦!

2025-08-18 14:17:55 321

原创 Numpy:数据界的“变形金刚“,玩转正太、御姐和壮汉的魔幻操作

比如一个4×3的"大块头"和一个1×3的"小不点",Numpy会悄悄给小不点"扩容",让它变成4×3的同款身材,然后俩人大摇大摆地做加法。这货可不是普通的计算器,简直是数据界的变形金刚,不管是娇小可爱的一维数组"正太",还是身材火辣的二维数组"御姐",甚至是自带气场的高维数组"壮汉",到了它手里都能玩出花来。比如两个2×2的数组,vstack后变成4×2,hstack后变成2×4,想怎么拼就怎么拼。transpose()函数帮你实现,就像把"御姐"变成"帅哥",性别都给你换了(其实是维度互换啦)。

2025-08-01 19:43:34 338

原创 NumPy:数据界的“全能工具箱”,让你的代码跑起来像开了挂

2. `zeros()`和`ones()`:全是0或全是1的“整齐队列” - `np.zeros(5)`:变出5个0,像`[0,0,0,0,0]`(默认是浮点数,带个小数点)。- `np.ones([3,2])`:变出3行2列全是1的表格,像`[[1,1],[1,1],[1,1]]`。4. `eye()`:对角线是1的“身份牌” `np.eye(3)`会变出一个3x3的矩阵,对角线是1,其他地方是0: `[[1,0,0], [0,1,0], [0,0,1]]` 像不像身份证上的“本人标识”?

2025-07-31 19:28:40 262

原创 用BeautifulSoup轻松搞定网页

还能根据属性来找,比如找class是`lavalamp-item`的标签,用`soup.find_all(class_='lavalamp-item')`就行,注意这里class后面加了个下划线,因为class是Python的关键字,不加会出错。标签里的属性也能轻松拿到,比如链接地址`href`,用`soup.li.a.attrs['href']`或`soup.li.a.get('href')`都能搞定,后者更不容易出错。想看看标签里的文字,加个`.string`就行,像`soup.li.string`。

2025-07-30 18:29:52 890

原创 利用PyMySQL实现爬虫数据与MySQL的交互

以创建学生表students为例,需定义字段名、类型等信息,通过执行CREATE TABLE语句实现,如sql = 'create table if not exists students(id varchar(255) not null, name varchar(255), age int not null, primary key(id))',再用cursor.execute(sql)执行。操作结束后,用cursor.close()和connect.close()关闭游标和连接,释放资源。

2025-07-29 19:59:28 896

原创 聊聊MySQL综合练习:从建表到查数据的那些事儿

比如"找那些MySQL基础比Python基础考得好的学生",这就得先从成绩表里找到这两门课的分数,再对比同一个学生的这两个分数,还得把学生的基本信息也显示出来。成绩表得有"学生ID"和"课程ID",分别关联学生表和课程表,不然谁的成绩、哪门课的成绩都分不清。比如查"没选课的学生",就得用左连接,不然直接关联成绩表的话,没选课的学生就查不出来;这套MySQL综合练习练下来,最大的收获不是记住了多少语句,而是明白了数据库的"套路"——表怎么设计才合理,数据怎么关联才清晰,不同的查询需求该用什么方法实现。

2025-07-28 16:41:39 274

原创 MySQL 数据库基础内容总结

执行 SELECT 子句,删除不包含在指定字段中的字段,若有 DISTINCT 则执行去重。(计数),这些函数对一组数据进行处理,返回单个结果,且都忽略 NULL 值。若有 WHERE 子句,对工作表进行条件筛选,删除不符合条件的记录。统计表中的总行数,只要有一列数据不为空就计 1 次,使用较多。,其中 WHERE 条件可选,若不添加则更新表中所有数据。,WHERE 条件同样可选,不添加则删除表中所有数据。若有 HAVING 子句,对分组后的结果表按条件筛选。(大于等于)等,用于比较数据和指定条件。

2025-07-25 19:20:17 314

原创 聊聊 MySQL:从 “啥是数据库” 到 “怎么用它存数据”

它不是乱糟糟堆数据的,而是 “有组织” 的 —— 就像图书馆的书架,按类别、编号摆得整整齐齐,找起来特别方便。而且这个仓库是 “可共享” 的,比如公司的员工表,HR 能看、财务要用来发工资、老板能查人数,大家都能用,还能统一管理。比如 “学号” 是字符串(VARCHAR),“年龄” 是整数(INT),“生日” 是日期(DATE)。中间会让你设个密码,这个密码一定要记牢,就像你家仓库的钥匙,丢了就进不去了。“主键”(PRIMARY KEY):给每条记录一个唯一的 “身份证”,比如学号,不能重复,也不能空着。

2025-07-24 19:22:45 289

原创 聊聊爬虫那些事儿:从工具到实战,小白也能懂

平时咱们上网,总有些时候想把网页上的信息批量存下来,比如把喜欢的图书信息、歌曲榜单整理成表格。这背后是网站给你发了个 “小纸条”(Cookies),记录着你的登录状态。就像你在网页上点 “选择文件” 再 “上传”,代码里用。拿到网页内容后,下一步是 “挑” 出咱们要的信息(比如书名、价格)。之后再访问邮箱里的其他页面,不用再登录,直接就能看。模块就是干这个的,能把网页代码变成可操作的 “对象”,再用 XPath 提取信息。试试吧,当看到网页上的信息变成自己表格里的内容时,还挺有成就感的~

2025-07-23 16:56:53 453

原创 网络爬虫的伦理边界与技术实践:从Robots协议到数据存储

本文将从Robots协议这一行业规范出发,探讨爬虫开发中的伦理边界,并结合实际技术实践,分析数据存储的最佳方案。Robots协议作为行业自律的体现,提醒我们在追求技术效率的同时,不忘尊重他人权益,共同维护互联网的健康发展环境。在数据爆炸的时代,负责任地使用爬虫技术,不仅是对他人的尊重,也是对行业可持续发展的贡献。隐私泄露:爬虫技术可能突破简单的访问控制,获取本应受保护的个人隐私数据,这不仅违反道德准则,也可能触犯日益严格的数据保护法规(如GDPR)。严格遵守Robots协议,尊重网站所有者的数据权利。

2025-07-22 17:58:36 1073

原创 HTML入门:从零开始学网页制作

主体部分,我使用<center></center>,实现整体居中,然后使用h1--h6选择标题文字大小,之后使用超链接标签<a href></a>放入四个网址,并在每个超链接标签下放入我选择的图片,并编辑图片大小。这是我完成的整体代码,包括一些简单的功能,包括网页名称,文本标签,插入图片,表格等简单功能。HTML指的是超文本标记语言,可以加入图片,声音,视频等各种内容。创建表格,这个表格没有明确意义,仅仅为了查看表格功能是否实现,后搭配<td>(单元格)<tr>(行)使用。:标题标签,数字越小字号越大。

2025-07-21 17:21:06 300

原创 Requests实战:模拟登录与深层次爬取

cookie其实是存储在浏览器中的纯文本,存储在cookie中的数据,每次都会被浏览器自动放在http请求中。cookie最典型的应用就是我们每次自动输入用户名和密码的“记住密码”,以便我们下一次直接登录。建议多次测试这个过程,确保获取的信息是稳定可用的,因为有些网站会使用动态token或加密参数。在网络面板中,勾选"Preserve log"(保留日志)选项,这个功能可以确保页面跳转后不会清空之前的网络请求记录。在登录界面,输入您的学号作为用户名,并输入对应的密码。保持开发者工具开启状态,点击登录按钮。

2025-07-18 15:07:44 213

原创 网页图片抓取与手机归属地查询

今天第二课学习的内容还是爬虫应用开发,就昨天内容再次精进一些,写下了两端代码,主要功能是网页图片的爬取和手机归属地的查询,依旧上代码。第一段 Python 代码主要用于从一个网站()获取关于特定手机号码的信息。下面主要解释一下关键代码发送 HTTP GET 请求到指定 URL,并返回网页内容。url:要请求的网页地址。time:超时时间,默认 10 秒。User-Agent:模拟浏览器发送请求,避免被网站识别为爬虫。:根据网页内容自动推断编码格式。:如果响应状态码不是 200,抛出异常。

2025-07-17 16:25:37 474

原创 第一课:静态网页爬取

我代码中设置的网址是http://val.qq.com,由此程序可直接获取该网页源代码,将获取的代码粘贴复制到一个新建文本,然后更改文档名html,之后我们可以点击此快捷方式直接进入该网页变成瓦学弟。使用apparent_encoding自动检测响应内容的编码将响应编码设置为检测到的编码,确保`.text`能正确解码内容。今天第一课学习的内容是爬虫应用的开发,简单了解了网络爬虫的概念,分类等,还有网页的相关概念(HTTP)。导入Python的requests库,这是一个用于发送HTTP请求的流行第三方库。

2025-07-16 14:41:01 336 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除