![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Data Mining
朝圣之路
日拱一卒
展开
-
常用数据集网址
常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址: http://www.cs.waikato.ac.nz/ml/weka/ UCI收集的机器学习数据集 ftp://pami.sjtu.edu.cn http://www.ics.uci.edu/~mlearn/\MLReposit原创 2014-08-20 16:51:48 · 4642 阅读 · 0 评论 -
java操作csv文件
CSV格式的文件经常碰到,何为CSV格式,CVS全称comma-separated values,就是典型的用逗号隔开的文件,比如下面这种文件格式 Name,company zhangsan,ibm lisi,oracle 这种就是典型的CSV格式文件。 不过也可以扩展到其它符号隔开的字符,比如 Name#company Zhangsan#ibm转载 2014-12-02 13:21:10 · 644 阅读 · 0 评论 -
K最近邻分类算法(KNN)
1、基本思想:给定一个测试样本,计算它与训练集中每个对象的距离,圈定距离最近的k个训练对象作为其最近邻,然后使用这k个最近邻中出现次数最多的类标号作为测试样本的类标号值。 每个样本可以表示为(x,x,x,x,....y)的形式,其中x表示样本的属性,y表示样本的类标号。 2、特点: (1)不需要事先对训练数据建立样本分类模型,而是当需要分类未知样本时才使用具体的训练样本进行预测。 (2)基原创 2017-02-07 09:46:54 · 1529 阅读 · 0 评论 -
KNN算法理解
一、算法概述 1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。 最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很可能无法找到完全匹配的训练记录。 kNN算法则是从训练集中找转载 2017-02-07 09:55:05 · 877 阅读 · 0 评论 -
数据挖掘——基本概念
1、定义:对于数据挖掘我们可以从两个角度来定义它: a. 技术定义:数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程。 b.商业定义: 数据挖掘是一种新的商业信息处理技术, 其主要特点是对商业数据库中的大量业务数据进行抽取、 转换、 分析和其他模型化处理, 从中提取辅助商业决策的 关建化数据。 2、数据挖掘的主要模型有:分类与预测,聚类和关联分析等原创 2017-03-29 16:59:53 · 9769 阅读 · 0 评论