NancyO_O-CSDN博客

原创聚类算法(一)：K-Means算法（K均值）

K-Means算法（K均值）一、概念补充所谓聚类，就是将相似的事物聚集在一起，聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”，通过这样的划分，每个簇可能对应于一些潜在的类别。性能度量对聚类结果，我们需要通过某种性能度量来评估其好坏。聚类性能度量大致有两类。一类是将聚类结果与某个“参考模型”进行比较，称为“外部指标”；另一类是直接考察聚类结果而不利用...

2021-10-27 14:47:35 1697

原创 Decision Tree算法（决策树）

Decision Tree算法（决策树）1.定义决策树是一种十分常用的分类方法。决策树是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。...

2019-07-02 15:56:55 1842

原创 Navie Bayes算法（朴素贝叶斯算法）

Navie Bayes算法（朴素贝叶斯算法）朴素贝叶斯算法是一种分类算法，其思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率。朴素贝叶斯分类器(Naive Bayes Classifier,简称NBC)，NBC基于一个简单的假定：给定目标值时属性之间相互条件独立。可以理解为，所谓朴素贝叶斯算法，朴素：特征条件独立贝叶斯：基于贝叶斯定理贝叶斯定理：朴素贝叶斯...

2019-07-02 15:32:17 1054

原创 K-NN算法（K-近邻算法）

K-NN算法（K-近邻算法）K-NN算法是一种分类算法。所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。例如：如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，判定绿色的这个待分类点属于红色的三角形一类。 ...

2019-06-25 15:51:54 1409

转载机器学习常见算法分类汇总

机器学习常见算法分类汇总机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。1.学习方式根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类...

2019-06-25 15:20:22 287

转载 Azure云扩展根文件系统容量

问题描述通过 Azure 平台部署的 Linux 虚拟机默认的根文件系统容量有限，需要进行扩展。解决办法使用Azure新门户（Azure portal）登陆：https://portal.azure.cn/ 输入用户名密码步骤如下（注意区分centos6和centos7）：通过Azure portal 关闭虚拟机。点击虚拟机的名称，选择“磁盘”，点击操作系统磁盘...

2019-06-25 15:08:22 622

原创 NIFI的使用——MongoDB到Hive

Nifi 是一个开源的数据处理工具，可以通过简单的Processor对数据流进行处理。本文以MongoDB数据同步至Hive为例，介绍Nifi的使用配置：1、MongoDB数据源本测试环境在MongoDB中创建了一个名为nancy的数据库和名为names的表，表中有13条数据，每条数据包含“name”和“_id”字段，数据如下：2、NIFI处理器用NIFI把MongoDB的数据...

2019-06-25 14:52:20 2496 2

原创 Solr安装与使用(ubuntu环境)

1.前期准备：Solr需要在java8及以上运行。此处示例为在ubuntu上通过apt-get安装JDK8。安装python-software-properties$sudo apt-get install python-software-properties $sudo apt-get install software-properties-common首先添加ppa$ ...

2019-06-25 14:27:05 580

Nancy的博客