机器学习
文章平均质量分 87
机器学习算法
方世恩
人工智能学习中……
展开
-
机器学习(1)--数据可视化
本篇我们介绍了,如何将一个个表面的文字数据转化为空间中的图像,让我们能够更好、更清晰的观察它们。作用:观察数据,预测数据,调整数据。可视化方法:可以将数据进行哪些方法展示出来实现可视化:注意学会如何调整图像哦!原创 2024-08-15 22:03:53 · 820 阅读 · 0 评论 -
机器学习(2)-- KNN算法之手写数字识别
本篇介绍了如何使用KNN算法进行手写数字识别:训练模型:收集数据 – 读取图片数据 – 转化灰度图 – 处理图像 – 装进array数组 – 调整数据结构 – 分配标签 – 训练模型测试模型:评估性能 – 识别问题 – 优化和改进测试数据:查看实用性。原创 2024-08-16 22:30:14 · 1374 阅读 · 0 评论 -
【机器学习】(3)-- 一元线性回归
本篇介绍了如何实现一元线性回归,其中需要注意的是,对于相关系数过小的数据,我们要进行选择调整。原创 2024-08-18 19:53:43 · 1002 阅读 · 0 评论 -
【机器学习】(4)-- 多元线性回归
本篇介绍了如何实现多元线性回归,其中需要注意的是,对于相关系数过小的数据,我们要进行选择调整。总的来说与一元线性回归处理方式差不多。原创 2024-08-18 20:16:44 · 1327 阅读 · 0 评论 -
【机器学习】(5)--正则化之L1和L2正则化
综上所述,L1正则化和L2正则化都是通过向损失函数中添加正则化项来提高模型的泛化能力,但它们在惩罚项的形式、特点和应用场景上存在差异。在实际应用中,应根据具体问题和需求选择合适的正则化方法。原创 2024-08-19 21:32:03 · 1575 阅读 · 0 评论 -
【机器学习】(6)--逻辑回归算法
什么是逻辑回归:逻辑回归其实是分类算法!!!逻辑回归算法如何分类:计算每个数据的属于哪个类别的概率,判断属于哪个类。(默认阈值0.5为分界线)训练模型:使用train_test_split方法,在数据中随机抽取数据作为训练集与测试集,使测试更有说服力。交叉验证,选择较优的惩罚因子。原创 2024-08-21 16:00:48 · 819 阅读 · 0 评论 -
【机器学习】(7) --逻辑回归内下采样
什么是下采样:一种处理数据不平衡问题的方法。下采样的过程:从多数类样本中随机选择一部分样本,选择的样本数量通常与少数类的样本数量相等或接近。如何进行下采样:使用sample方法取出和少数类数量相等的数据,再将新得到的样本同原本少数类的样本合并,作为新的训练集。原创 2024-08-21 19:08:29 · 727 阅读 · 0 评论 -
【机器学习】(8) --逻辑回归内过采样(人工拟合)
什么是过采样:SMOTE通过近邻方式生成新的、合成的数据点,扩充少数类的数据。过采样的过程:将每类训练集的样本和结果,每类数量扩充至相等。如何进行过采样:使用SMOTH方法随机拟合数据,用新的变量接收。原创 2024-08-22 16:20:14 · 1079 阅读 · 0 评论 -
【机器学习】(9) --逻辑回归实现手写数字识别
逻辑回归更适合二分类算法,但是也可以通过一些策略,扩展到多分类问题。注意要将读取的数据进行标准化操作,灰度图图片数据相差过大。学会调整参数,优化模型,比如本篇在交叉验证中找寻最优的惩罚因子。原创 2024-08-23 09:59:32 · 1378 阅读 · 0 评论 -
【机器学习】(10) --决策树算法
决策树是一种直观的预测模型,它表示对象属性和对象值之间的一种映射关系。树中的每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。对于分类问题,决策树模型表示基于特征对实例进行分类的过程,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。常见的决策树学习算法:ID3算法、C4.5算法、CART算法常用预剪枝方法防止过拟合决策树主要的模型参数调整有:树的最大深度:max_depth。原创 2024-08-24 09:34:32 · 1080 阅读 · 0 评论 -
【机器学习】(11) --回归树算法
criterion:节点分裂依据,默认:mse ----> 【按默认选择mse即可】splitter:表示以最优的方式切分节点,默认best ----> 【按默认选择best即可】max_depth:树的最大深度。----> 【通过交叉验证来进行选择】min_samples_split :分裂一个内部节点需要的最小样本数,默认值是2。min_samples_leaf :叶子节点最少样本数,默认值是1,原创 2024-08-25 13:19:15 · 1153 阅读 · 0 评论 -
【机器学习】(12) --随机森林
随机森林(Random Forest)是一种**集成学习**方法,属于决策树模型的扩展。它通过构建多个决策树并将它们的预测结果进行汇总,以此来提高预测的准确性和稳定性。随机森林是“集成学习”中最流行的算法之一,尤其在分类和回归任务中表现出色。原创 2024-08-26 09:16:05 · 1099 阅读 · 0 评论 -
【机器学习】(13) --随机森林实现手写数字识别
注意对读取的数据处理学会调整参数,优化模型,比如本篇在交叉验证中找寻最优的最大特征数量。原创 2024-08-27 09:11:26 · 1147 阅读 · 0 评论 -
【机器学习】(14) --贝叶斯算法
贝叶斯如何分类:简单来说就是通过计算每种类别的概率来分类贝叶斯的优缺点如何构建贝叶斯模型。原创 2024-08-28 14:05:42 · 1123 阅读 · 0 评论 -
【机器学习】(15) --支持向量机SVM
什么是SVM?如何构建SVM模型?如何将模型结果可视化。原创 2024-08-29 09:27:54 · 1435 阅读 · 0 评论 -
【机器学习】(16) --K-means聚类算法
K-means聚类算法的过程。K-means聚类算法训练的数据没有标签,自动分配标签。通过轮廓系数查看聚类效果,值越大表示聚类效果越好。原创 2024-08-30 14:19:03 · 1488 阅读 · 0 评论 -
【机器学习】(17) --DBSCAN聚类算法
DBSCAN聚类算法是怎么实现的DBSCAN聚类算法不需要提前指定分几簇,它会自动分簇算法模型训练时会产生标签参数,训练数据本身是没有标签的聚类算法的评估通过轮廓系数来判断,范围[-1,1],靠近1为合理。原创 2024-08-31 09:50:29 · 1733 阅读 · 0 评论 -
【机器学习】(18) --TF-IDF方法
什么是TF-IDF值?它有什么作用?如何计算TF-IDF值使用TF-IDF对象得到文章单词权重下期介绍,使用jieba库进行中文分词。原创 2024-09-01 15:32:53 · 1292 阅读 · 0 评论 -
【机器学习】(19) --TF-IDF中文处理
本篇介绍了:1. jieba分词的基础用法2. 如何计算中文文本中单词的TF-IDF值3. 型拟合变换之后,模型中已经将每个单词的TF-IDF值计算出来了原创 2024-09-02 09:45:12 · 1289 阅读 · 0 评论 -
【机器学习】(20) --PCA数据降维
本篇介绍了:1. PCA降维指的是减少数据特征。2. PCA适用于: 1. 数据维度高的时候 2. 将数据可视化时:将维度转化为二维或三维等3. 完整的PCA处理流程。原创 2024-09-09 09:38:22 · 1467 阅读 · 0 评论 -
【机器学习】(21) --数据清洗
本篇介绍了:1. 如何将异常数据转换为空值2. 空值填充3. 数据保存原创 2024-09-10 09:41:27 · 556 阅读 · 0 评论