- 博客(8)
- 收藏
- 关注
原创 聚类算法(一):K-Means算法(K均值)
K-Means算法(K均值)一、概念补充所谓聚类,就是将相似的事物聚集在一起,聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”,通过这样的划分,每个簇可能对应于一些潜在的类别。性能度量对聚类结果,我们需要通过某种性能度量来评估其好坏。聚类性能度量大致有两类。一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考察聚类结果而不利用...
2021-10-27 14:47:35 1697
原创 Decision Tree算法(决策树)
Decision Tree算法(决策树)1.定义决策树是一种十分常用的分类方法。决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。...
2019-07-02 15:56:55 1842
原创 Navie Bayes算法(朴素贝叶斯算法)
Navie Bayes算法(朴素贝叶斯算法)朴素贝叶斯算法是一种分类算法,其思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率。朴素贝叶斯分类器(Naive Bayes Classifier,简称NBC),NBC基于一个简单的假定:给定目标值时属性之间相互条件独立。可以理解为,所谓朴素贝叶斯算法,朴素:特征条件独立贝叶斯:基于贝叶斯定理贝叶斯定理:朴素贝叶斯...
2019-07-02 15:32:17 1054
原创 K-NN算法(K-近邻算法)
K-NN算法(K-近邻算法)K-NN算法是一种分类算法。所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。 例如: 如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,判定绿色的这个待分类点属于红色的三角形一类。 ...
2019-06-25 15:51:54 1409
转载 机器学习常见算法分类汇总
机器学习常见算法分类汇总机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。1.学习方式根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类...
2019-06-25 15:20:22 287
转载 Azure云扩展根文件系统容量
问题描述通过 Azure 平台部署的 Linux 虚拟机默认的根文件系统容量有限,需要进行扩展。解决办法使用Azure新门户(Azure portal)登陆:https://portal.azure.cn/ 输入用户名密码步骤如下(注意区分centos6和centos7):通过Azure portal 关闭虚拟机。 点击虚拟机的名称,选择“磁盘”,点击操作系统磁盘...
2019-06-25 15:08:22 622
原创 NIFI的使用——MongoDB到Hive
Nifi 是一个开源的数据处理工具,可以通过简单的Processor对数据流进行处理。本文以MongoDB数据同步至Hive为例,介绍Nifi的使用配置:1、MongoDB数据源本测试环境在MongoDB中创建了一个名为nancy的数据库和名为names的表,表中有13条数据,每条数据包含“name”和“_id”字段,数据如下:2、NIFI处理器用NIFI把MongoDB的数据...
2019-06-25 14:52:20 2496 2
原创 Solr安装与使用(ubuntu环境)
1.前期准备:Solr需要在java8及以上运行。此处示例为在ubuntu上通过apt-get安装JDK8。安装python-software-properties$sudo apt-get install python-software-properties $sudo apt-get install software-properties-common首先添加ppa$ ...
2019-06-25 14:27:05 580
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人