机器学习
文章平均质量分 82
西瓜书
木夕敢敢
这个作者很懒,什么都没留下…
展开
-
hmmlearn之MultinomialHMM 离散隐马尔科夫模型
【代码】hmmlearn之MultinomialHMM 离散隐马尔科夫模型。原创 2022-11-02 19:30:57 · 2014 阅读 · 18 评论 -
数据挖掘 / 机器学习——决策树
第四章 决策树一、概述1. 任务属性分类任务2. 结构根结点:样本全集内部结点:表示一个特征或属性叶结点:表示一个类3. 基本算法4. 生成过程决策树的生成是一个递归过程。有三种情形会导致递归返回:①当前结点包含的样本全属于同一类别,无需划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;【把当前结点标记为叶结点,将其类别设定为该结点包含样本最多的类别-利用当前结点的后验分布】③当前结点包含的样本集合为空,不能划分。【把当前结点标记为叶结点,但将其类别设定为其父节点所含原创 2022-04-11 20:41:28 · 4237 阅读 · 0 评论 -
K近邻算法(k-Nearest Neighbour, KNN)
KNN算法思想k-最近邻(k-Nearest Neighbour, kNN)算法是一种常用的监督学习方法,其工作机制非常简单靠近的 个训练样本,然后基于这 个"邻居 “的信息来进行预测 在分类任务中可使用"投票法” 即选择这 个样本中出现最多的类别标记作为预测结果;在回归任务中时使用"平均法" ,即将 个样本的实值输出标记平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大.是一种基于距离的分类算法,不需要事先建立分类模型,仅利用有类别标号的样本集,直接对没有类原创 2022-04-24 12:41:43 · 2740 阅读 · 0 评论 -
数据挖掘——聚类
《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》数据挖掘之聚类1. 划分聚类K-means每次聚类保证局部最优,随后调整聚类,利用局部最优聚类的上限来不断逼近全局最优。采用距离作为相异度的评价指标,以簇内差异函数w©作为聚类质量的优化目标函数,即将所有数据对象到它的簇中心点的距离平方和作为目标函数,算法寻找最优聚类的策略是使目标函数达到最小值(簇中心不变化等价于w©达最小)。优点:① k-means算法简单、经典,常作为其它聚类算法的参照或被改进。② k原创 2022-04-11 21:13:35 · 7038 阅读 · 0 评论 -
Pandas库学习
一、Pandas是什么Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。二、Pandas 的安装和使用pip install pandas # 通过pip命令安装import pand原创 2021-07-14 21:09:50 · 1886 阅读 · 0 评论 -
【机器学习】Scikit-learn介绍
一、Scikit-learn简介Scikit-learn是一个支持有监督和无监督学习的开源机器学习库。它还为模型拟合、数据预处理、模型选择和评估以及许多其他实用程序提供了各种工具。二、 拟合和预测:估算器基础 Fitting and predicting: estimator basics(一)estimatorestimators:sklearn提供的内置的机器学习算法和模型,统称为估计器。每个估计器都可以用它的拟合方法fit来拟合某些数据。(二)fit方法fit方法通常接受两个输入:样本矩翻译 2021-07-12 19:54:02 · 2904 阅读 · 2 评论