自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 【机器学习 | 第八篇】- 朴素贝叶斯

本文介绍了朴素贝叶斯算法的原理与应用。首先复习了概率基础,包括条件概率和联合概率的计算方法。然后详细讲解了贝叶斯公式,通过先验概率和条件概率推导后验概率来实现分类。朴素贝叶斯在贝叶斯基础上引入特征条件独立假设以简化计算,并采用拉普拉斯平滑解决零概率问题。文章还分析了三种常见的朴素贝叶斯变体及其适用场景,并总结了该算法的优缺点。最后通过商品评论情感分析案例,展示了从数据预处理到模型训练评估的完整流程,特别适合文本分类任务。朴素贝叶斯虽简单但高效,是机器学习中的重要算法。

2026-03-31 10:14:48 92

原创 【机器学习 | 第七篇】- 聚类算法

本文介绍了聚类算法及其应用场景,重点讲解了K-means算法流程,包括初始化聚类中心、计算距离、更新质心等步骤。通过案例分析展示了K-means的迭代过程,并指出算法最终会收敛。文章还详细阐述了三种评价指标:误差平方和(SSE)、轮廓系数(SC)和CH系数,其中SC系数结合凝聚度和分离度评估聚类效果,CH系数则同时考虑簇内凝聚度和簇间分离度。最后介绍了确定最佳聚类数的肘部法,通过观察SSE变化拐点来选择最优n_clusters值。这些方法为聚类分析提供了完整的评估体系。

2026-03-31 10:09:01 281

原创 【机器学习 | 第六篇】- 集成学习

本文系统介绍了集成学习的主要方法及其核心原理。首先阐述了集成学习的基本思想——通过组合多个弱学习器提升预测性能,并对比了Bagging(并行训练、平权投票)和Boosting(串行训练、加权投票)两大框架的差异。重点分析了四种典型算法:随机森林(基于Bagging的决策树集成)、Adaboost(自适应调整样本权重)、GBDT(梯度提升决策树)和XGBoost(极致优化的GBDT改进版)。其中XGBoost通过引入正则化项、泰勒二阶展开和增益分裂机制,在工业界和竞赛中表现卓越。文章还提供了XGBoost的A

2026-03-28 20:33:31 417

原创 【机器学习 | 第五篇】- 决策树

决策树是一种监督学习算法,可用于分类和回归任务。其核心思想是通过特征判断递归划分数据,形成树形结构。主要算法包括: ID3:基于信息增益选择特征,但易偏向多值特征; C4.5:改进ID3,采用信息增益率解决多值偏好问题; CART:使用基尼指数(分类)或平方损失(回归),生成二叉树。 决策树优势在于可解释性强、无需特征标准化,但需注意过拟合问题,通常通过剪枝优化。不同算法适用于不同场景,如CART支持连续值和回归任务。

2026-03-28 20:27:47 510

原创 【机器学习 | 第四篇】- 逻辑回归

本文介绍了逻辑回归模型的核心数学基础,重点阐述了自然常数e、自然对数log的运算规则及其在模型中的作用。详细讲解了概率基础中的联合概率和条件概率概念,并基于极大似然估计推导了逻辑回归的交叉熵损失函数。通过将联合概率转化为对数似然形式,最终得到用于参数优化的交叉熵损失函数。文章强调了对数转换在简化计算和保持极值性质方面的优势,以及如何通过最小化交叉熵损失来最大化模型的似然值。这些数学工具为逻辑回归实现二分类任务提供了理论基础。

2026-03-26 09:13:10 653

原创 【机器学习 | 第三篇】- 线性回归

线性回归是一种基础的机器学习算法,用于建立特征与目标值之间的线性关系模型。本文从一元和多元线性回归的概念出发,详细介绍了线性回归的数学原理和实现方法。重点讲解了正规方程和梯度下降两种求解方式,并对比了它们的优缺点。同时介绍了MAE、MSE、RMSE等常用评估指标的计算方法和特点。最后通过波士顿房价预测案例展示了线性回归的实际应用流程。文章适合机器学习初学者系统学习线性回归的核心概念和应用技巧。

2026-03-26 08:46:16 580

原创 【机器学习 | 第二篇】- KNN算法

KNN算法是一种基于相似性的监督学习算法,可用于分类和回归问题。其核心思想是通过计算样本间的距离(如欧氏距离),找出最近的K个邻居,根据多数表决(分类)或均值(回归)进行预测。K值选择是关键,过小易过拟合,过大易欠拟合。实际应用中需进行特征预处理(归一化/标准化)以避免特征尺度差异影响。Sklearn提供了KNeighborsClassifier和KNeighborsRegressor实现,并通过交叉验证和网格搜索优化超参数。该算法简单直观,是入门机器学习的经典方法,在鸢尾花分类等案例中表现良好。

2026-03-11 20:06:23 359

原创 【机器学习 | 第一篇】- 三分钟了解机器学习所有概念

机器学习入门指南:从基础概念到应用实践 本文系统介绍了机器学习的核心知识体系,主要内容包括: 人工智能三大核心概念及其关系(AI→ML→DL) 机器学习发展历程的四个阶段 AI发展的三大要素(数据、算法、算力)及硬件支持 机器学习常用术语(样本、特征、标签等)和数据集划分原则 五大机器学习算法分类(监督/无监督/半监督/自监督/强化学习) 完整的机器学习建模流程(数据获取→特征工程→模型训练→评估部署) 文章通过丰富的图表和实例,帮助读者快速掌握机器学习的基本原理和应用场景,适合初学者建立系统认知框架。

2026-03-11 19:56:42 774

原创 【数据分析 | 第四篇】- Matplotlib

本文介绍了Matplotlib库的基本使用方法和绘图功能。主要内容包括: 折线图绘制流程:创建画布、绘制图像、显示图像 图像结构解析 基础绘图功能:添加坐标轴标签、标题、网格线等辅助功能 解决中文显示问题的方法 图片保存技巧 在同一坐标系中绘制多个图像的方法 设置不同线条的颜色和风格 添加图例的方法 通过天气温度变化的案例,演示了如何使用Matplotlib进行数据可视化,包括数据准备、画布创建、图像绘制、样式设置等完整流程。

2026-03-06 12:08:20 409

原创 【数据分析 | 第三篇】- Pandas(含数据集)

本文介绍了Python中Pandas库的基础使用,重点展示了如何通过Pandas进行数据分析和可视化。主要内容包括:安装Pandas、导入CSV数据、数据查询与筛选、设置索引、绘制GDP变化曲线图(对比中、美、日三国数据),以及解决图表中文显示问题。此外还讲解了Pandas核心数据结构Series和DataFrame的创建方法及基本属性。Pandas凭借其基于Numpy的高效运算能力和丰富的数据处理功能,成为数据分析领域的首选工具。

2026-03-06 10:51:07 673 1

原创 【数据分析 | 第二篇】- Numpy

Numpy是Python科学计算的核心库,其核心数据结构ndarray相比原生Python列表具有显著优势:1)内存连续存储提升计算效率;2)支持并行化运算;3)底层C实现解除GIL限制。ndarray支持多种数据类型(如int32、float64等),可通过shape、dtype等属性查看数组特征。创建数组时可用np.array()、np.ones()等方法,并能指定数据类型。性能测试显示,处理1亿数据时,ndarray求和速度比Python列表快8倍,特别适合机器学习等大规模数值计算场景。

2026-03-03 16:05:28 601

原创 【数据分析 | 第一篇】- Anaconda

Anaconda是一个用于数据科学和机器学习的Python发行版,它简化了Python环境的安装、管理和部署。其核心功能包括预装科学计算库(如numpy、pandas等)和强大的环境管理工具conda,可以创建相互隔离的虚拟环境,解决包版本冲突问题。安装Anaconda后,用户可以通过命令行或图形界面(Anaconda Navigator)管理虚拟环境,包括创建、激活、安装包、退出和删除环境等操作。Anaconda自带Python解释器,可直接在Pycharm中使用,是数据分析领域的重要工具。

2026-03-03 16:01:42 379

原创 【Python进阶 | 第十一篇】- 正则表达式

本文介绍了正则表达式的基础使用方法和常见匹配规则。主要内容包括:正则表达式的三种基本匹配方法(findall、search、match);单个字符匹配规则(如普通字符、点号、字符集等);特殊字符匹配(数字、字母、空白符等);多个字符匹配(次数限定);位置匹配(开头结尾验证);以及分组匹配的应用。文章通过多个Python代码示例演示了如何验证手机号、用户名、邮箱等常见需求,帮助读者从零开始掌握正则表达式的使用技巧。正则表达式是处理文本数据的强大工具,在数据验证、信息提取等方面具有重要作用。

2026-02-11 10:09:55 946

原创 【Python进阶 | 第十篇】- property属性

Python中的property属性可以将方法包装成属性访问方式,简化代码调用。主要有两种实现方法:1. 装饰器法 - 使用@property修饰getter方法,@method.setter修饰setter方法;2. 类属性法 - 通过property()函数将getter和setter方法绑定为类属性。这两种方式都能将私有属性的访问和修改操作转换为类似直接属性赋值的语法,使代码更加简洁直观。property属性特别适用于需要对属性访问进行控制或验证的场景。

2026-02-10 08:29:40 494

原创 【Python进阶 | 第九篇】- 迭代器和生成器

本文介绍了Python中的迭代器和生成器。迭代器是通过实现__iter__()和__next__()方法实现的对象,用于遍历数据集合;生成器是特殊的迭代器,使用yield关键字定义,具有代码简洁和内存高效的特点。文章对比了两者的实现方式、代码复杂度、执行流程和使用场景,并通过示例代码展示了生成器在数据处理中的优势。总结指出,生成器是实现迭代器的高效工具,能自动管理状态,适合处理大数据场景。

2026-02-10 08:28:28 771

原创 【Python进阶 | 第八篇】- 上下文管理器

Python上下文管理器通过__enter__和__exit__方法实现资源管理,确保with语句块执行前后自动处理资源。__enter__在进入with时执行并返回资源对象,__exit__在退出时执行清理操作。示例代码展示了自定义文件管理器类,模拟open()功能,在with语句中自动打开和关闭文件。这种机制广泛应用于文件处理等需要确保资源释放的场景。

2026-02-09 20:17:12 152

原创 【Python进阶 | 第七篇】- 多进程和多线程

本文摘要: 多任务处理是提高程序执行效率的重要手段,主要包括多进程和多线程两种实现方式。多进程通过创建子进程实现并发执行,每个进程拥有独立资源但不共享全局变量;多线程则依附于进程,共享进程资源。进程创建需导入multiprocessing模块并实例化Process类,线程创建类似但使用Thread类。主进程默认等待子进程结束,可通过守护进程或主动终止优化。多线程适合I/O密集型任务,而多进程适合CPU密集型任务。两种方式都能有效提升程序性能,防止卡顿,构建高性能服务。

2026-02-09 20:12:37 984

原创 【Python进阶 | 第六篇】- Socket套接字

本文介绍了Python中Socket套接字的基本概念与TCP通信开发流程。主要内容包括: Socket类比为"多功能插头",是进程间通信的基础 创建Socket对象时AF_INET(IPv4)/AF_INET6(IPv6)和SOCK_STREAM(TCP)/SOCK_DGRAM(UDP)的区别 字符串与二进制数据转换的必要性及方法 详细说明了TCP服务端和客户端的开发步骤 提供了文件传输的实现示例 介绍了解决端口占用问题的复用设置方法 文章通过代码示例演示了Socket编程的核心流程,包

2026-02-05 20:31:34 672

原创 【Python进阶 | 第五篇】- 网络编程

网络编程是实现计算机间通信的技术,核心要素包括IP地址、端口和协议。IP地址是设备的唯一标识,可通过ipconfig查看;端口区分不同服务,知名端口如HTTP(80)、HTTPS(443)等;协议规定通信规则,TCP提供可靠连接需三次握手建立连接、四次挥手断开,适用于文件传输等场景;UDP无连接速度快,适用于实时应用;HTTP基于TCP,用于Web通信。这些要素共同构成了网络通信的基础框架。

2026-02-03 13:30:33 627

原创 【Python进阶 | 第四篇】- 深浅拷贝

本文介绍了Python中的深浅拷贝概念。浅拷贝(copy.copy())仅复制对象的最外层,嵌套元素仍共享引用;而深拷贝(copy.deepcopy())会递归复制所有嵌套元素,生成完全独立的新对象。通过示例代码展示了修改顶层元素和嵌套元素时,两种拷贝方式对原对象的影响:浅拷贝修改嵌套元素会影响原对象,深拷贝则完全隔离。文章强调赋值(=)不是拷贝,只是创建别名,两者指向同一内存地址。

2026-02-02 21:09:30 66 2

原创 【Python进阶 | 第三篇】- 装饰器

本文介绍了Python装饰器的基本概念和使用方法。装饰器本质上是一个闭包函数,用于在不修改原函数代码的情况下为其添加额外功能。文章详细阐述了装饰器的四大特点:嵌套、引用、返回和额外功能。通过多个案例展示了装饰器的不同应用场景,包括无参无返回值、有参无返回值、无参有返回值和有参有返回值函数的使用方式。还介绍了通用装饰器、多个装饰器装饰一个函数以及一个装饰器装饰多个函数的实现方法。最后提供了两种判断条件版的装饰器实现方案,帮助读者理解装饰器的灵活应用。

2026-02-02 21:06:07 400 2

原创 【Python进阶 | 第二篇】- 闭包

闭包=内部函数+外部环境使用外部函数变量的内部函数就是闭包,闭包就是一个“带着记忆出生的函数”,它永远记得自己创建时的环境。

2026-02-01 21:39:26 405

原创 【Python进阶 | 第一篇】- 面向对象编程

本文系统介绍了面向对象编程的核心概念和特性。主要内容包括:1)类与对象的定义,详细讲解了类属性、对象属性以及类方法、静态方法和对象方法的区别;2)面向对象三大特性:封装(私有与公有)、继承(单继承、多继承、方法重写与调用)和多态;3)常用的魔法方法如__init__、__str__和__del__的作用及用法。文章强调面向对象编程在企业级项目中的优势,如代码结构清晰、易于维护和扩展,同时也分析了其在小项目中的局限性。通过系统讲解,帮助读者掌握面向对象编程的核心思想和技术要点。

2026-02-01 21:31:17 1680 8

【机器学习 - 第二篇】- KNN算法手写数字识别数据集

用于KNN算法训练

2026-03-11

Pandas - 学习数据集

此资源数据集为学习数据分析使用

2026-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除