m0_74318688-CSDN博客

原创机器学习—贝叶斯分类

贝叶斯分类算法是基于贝叶斯方法的一列分类算法，包括朴素贝叶斯、半朴素贝叶斯、贝叶斯网络、EM算法等，朴素贝叶斯分类器是贝叶斯分类器中最简单，也是最常见的一种分类方法。先验概率：是指根据以往经验和分析得到的概率。后验概率：事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率类似于条件概率联合概率与之前实验对比：数据集手动输入，没有调库，测试集和训练集的设置也更加方便。朴素贝叶斯运用到的概率公式有接触过，对于计算也更容易理解。

2024-05-12 20:22:00 620

原创机器学习之决策树

ID3算法中，选择的是信息增益来进行特征选择，信息增益大的特征优先选择。基尼指数的意义是从数据集D中随机抽取两个样本类别标识不一致的概率。基尼指数越小，数据集的纯度越高。相比于信息增益，信息增益比等作为特征选择方法，基尼指数省略了对数计算，运算量比较小，也比较容易理解，所以CART树选择使用基尼系数用来做特征选择。在这个模型中用ID3算出的准确率比基尼指数的高一些。

2024-04-30 16:17:37 321

原创机器学习之模型评估

模型评估是对训练好的模型性能进行评估，模型评估是模型开发过程不可或缺的一部分，有助于我们了解模型的性能和泛化能力。机器学习的任务有回归,分类和聚类，针对不同的任务有不同的评价指标。按照数据集的目标值不同，可以把模型评估分为分类模型评估和回归模型评估。虽然在鸢尾花实验中k值对准确率和ROC曲线并无显著影响，但我们需要知道，在不特定问题中，较小的k值意味着模型会更加复杂，因为它更多地依赖于训练数据中的局部结构。这可能导致模型对训练数据过拟合，从而在测试数据上的表现不佳。

2024-04-16 15:42:46 989

原创 K-近邻算法

k近邻算法采用测量不同特征值之间的距离方法进行分类。优点是精度高、对异常值不敏感、无数据输入假定；缺点是计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。k近邻算法的工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。

2024-04-02 17:00:58 915 1

原创安装anaconda及环境配置

安装完Anaconda后检查是否安装成功，在命令行输入conda --version显示未找到文件。a.登录Anaconda官网，进去直接点击"Download"就可以了(7.点击Finish就安装完成了（无需安装完打开查看可把两个勾选项取消）每添加一个路径重新新建一个，直至将（如图黄色框中文件路径）添加完为止。原因：未配置环境变量，完成此步骤后再次操作就成功出现了。点击链接进入清华镜像站，选择要下载的版本。2.新建>>找到下载Anaconda时的文件路径复制下来。下载很慢，推荐使用下面的方法。

2024-03-10 16:09:07 438 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 机器学习—贝叶斯分类

原创 机器学习之决策树

原创 机器学习之模型评估

原创 K-近邻算法

原创 安装anaconda及环境配置

空空如也

空空如也

原创机器学习—贝叶斯分类

原创机器学习之决策树

原创机器学习之模型评估

原创安装anaconda及环境配置