数据挖掘
文章平均质量分 76
fengzhe0411
这个作者很懒,什么都没留下…
展开
-
overfitting(过度拟合)的概念
最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决ove转载 2011-12-30 16:37:10 · 22665 阅读 · 4 评论 -
数据挖掘十大算法之C4.5决策树
1. 算法背景介绍分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。分类本质上就是一个map的过程。C4.5分类树就是决策树算法中最流行的一种。下面给出一个数据集作为算法例子的基转载 2012-03-02 14:55:49 · 184 阅读 · 0 评论 -
LHS重要学习资料(转)
自1998年提出LSH,距今已经10多年了,中间有不少对该算法的改进、挑战、应用、介绍等等。这里根据自己的学习过 程,列一个LSH参考文献和相关资源列表:一则是小结学习LSH可以参考的资料,二则是为了避免本人的LSH小结系列文章对大家产生误导。欢迎对该列表进 行指正和补充。重要解析:http://blog.sina.com.cn/s/blog_67914f2901019p3v.html转载 2013-01-14 21:06:30 · 1246 阅读 · 0 评论 -
推荐系统的循序进阶读物
已经上传,请移步下载:http://download.csdn.net/detail/fengzhe0411/5164627为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解掌握推荐系统及相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门原创 2011-12-25 13:59:09 · 3558 阅读 · 33 评论 -
LIRE(Lucene Image Retrieval)相似图像索引和搜索机制
众说周知,lucene是一个开源的强大的索引工具,但是它仅限于文本索引。基于内容的图像检索(CBIR)要求我们利用图像的一些基本特征(如颜色纹理形状以及sift,surf等等)搜索相似的图片,LIRE(Lucene Image Retrieval)是一款基于lucene的图像特征索引工具,它能帮助我们方便的对图像特征建立索引和搜索,作者也在不断加入新的特征供用户使用。如果你熟悉lucene,那么用原创 2013-04-09 11:07:42 · 10617 阅读 · 11 评论 -
个性化推荐的十大挑战
原文:http://bbs.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=554630 个性化推荐很多人都知道,但其中不乏认识上的误区。有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息服务”转载 2012-04-07 18:15:10 · 2154 阅读 · 1 评论 -
k-means聚类java实现
以前做项目时候写的代码,数据是一维的,多维的也一样,把距离计算的改一改就行int term = Math.abs(dotlist.get(centerIndex[j]).x- dotlist.get(i).x);package uestc.dmlab.call;import java.io.BufferedReader;import java.io.FileReader;imp原创 2013-06-09 10:00:28 · 3364 阅读 · 6 评论