数据挖掘
文章平均质量分 87
lilivian
目前在学校从事数据挖掘理论学习与研究
展开
-
python之sklearn学习笔记
前言:本文是学习笔记。sklearn介绍scikit-learn是数据挖掘与分析的简单而有效的工具。 依赖于NumPy, SciPy和matplotlib。它主要包含以下几部分内容:从功能来分: classificationRegressionClusteringDimensionality reductionModel selectionPreprocessing从API模块来分原创 2016-12-21 09:36:55 · 47310 阅读 · 5 评论 -
聚类结果的评估指标及其JAVA实现
一. 前言又GET了一项技能。在做聚类算法的时候,由于要评估所提出的聚类算法的好坏,于是需要与一些已知的算法对比,或者用一些人工标注的标签来比较,于是用到了聚类结果的评估指标。我了解了以下几项。首先定义几个量:(借鉴该博客:http://blog.csdn.net/luoleicn/article/details/5350378)TP:是指被聚在一类的两个量被正确的分类了(即在原创 2015-07-15 10:42:05 · 3903 阅读 · 0 评论 -
关联规则挖掘之apriori算法
前言:众所周知,关联规则挖掘是数据挖掘中重要的一部分,如著名的啤酒和尿布的问题。今天要学习的是经典的关联规则挖掘算法——Apriori算法一、算法的基本原理由k项频繁集去导出k+1项频繁集。二、算法流程1.扫描事务数据库,找出1项集,并根据最小支持度计数,剪枝得出频繁1项集。k=1.2.由频繁k项集进行连接步操作,形成候选的k+1项集原创 2015-07-03 15:53:23 · 939 阅读 · 0 评论 -
调用WEKA包进行kmeans聚类(java)
前言:Kmeans是一种非常经典的聚类算法。它利用簇的中心到对象的距离来分配每个对象的簇所属关系。同时迭代的进行簇的中心的更新以及簇分配的更新,直到收敛。下面是调用weka包中实现的kmeans的代码package others;import java.io.File;import weka.clusterers.SimpleKMeans;import weka.原创 2015-07-03 15:37:48 · 7712 阅读 · 1 评论 -
通过weka.jar包来进行数据预处理
前言:注意首先要将weka.jar包加载到相应的路径中去。程序中的数据也是用的weka自带的数据。扩展:eclipse添加jar包的操作方法:打开eclipse ,在对应的工程下右击,选择Build Path ->选择Configure Build Path ->选择Libraries ->点击Add External JARs ->然后到你的jar包所在路径选择它。即可。一、特原创 2015-07-03 12:48:23 · 4597 阅读 · 2 评论