![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 76
海涛anywn
不忘初心 方得始终
展开
-
k-means确定初始中心值的方法
KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。KMeans算法本身思想比较简单,但是合理的确定K值和K个初始类簇原创 2016-04-15 20:06:26 · 7834 阅读 · 1 评论 -
四种聚类算法的比较
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能转载 2016-04-15 21:41:54 · 20988 阅读 · 0 评论 -
Hadoop环境搭建及实现倒排索引
目 录 1.应用介绍 3 1.1实验环境介绍 3 1.2应用背景介绍 3 1.3应用的意义与价值 4 2.数据及存储 5 2.1数据来源及数据量 5 2.2数据存储解决方案 5 3.分析处理架构 5 3.1架构设计和处理方法 5 3.2核心处理算法代码 7 4.系统实现 9 5.总结 271.应用介绍 1.1实验环境介绍 本实验是在hadoo原创 2016-05-13 12:26:21 · 7241 阅读 · 3 评论 -
xgboost在linux环境下的安装步骤
xgboost是轻量级的gbdt,在安装的时候遇到不少坑,现在记下来。1.安装anaconda安装xgboost 有一些依赖包,所以在安装xgboost之前需要安装这些依赖包。2.下载xgboost3.编译并安装cd /home/xgboost-mastermakecd wrapperpython ../python-package/setup.py install...原创 2019-05-27 15:47:51 · 1407 阅读 · 0 评论 -
机器学习中常用的特征选择方法
特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间的理解1 去掉取值变化小的特征 Removing features with low variance这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征...原创 2019-05-27 15:48:34 · 2098 阅读 · 0 评论