数据挖掘
文章平均质量分 78
linglingbaby
这个作者很懒,什么都没留下…
展开
-
svm的一些理解(网上收集整理)
机器学习(Machine Learning, ML)的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它(这种关系)能够对未知输出做出尽可能准确地预测。机器学习至今没有一个精确的公认的定义。作为人工智能(Artificial Intelligence, AI)的一转载 2011-08-30 13:59:22 · 1256 阅读 · 0 评论 -
算法的力量 李开复__转自李开复网易博客
算法是计算机科学领域最重要的基石之一,但却受到了国内一些程序员的冷落。许多学生看到一些公司在招聘时要求的编程语言五花八门,就产生了一种误解,认为学计算机就是学各种编程语言,或者认为,学习最新的语言、技术、标准就是最好的铺路方法。其实,大家被这些公司误导了。编程语言虽然该学,但是学转载 2011-08-30 15:28:43 · 583 阅读 · 0 评论 -
内存计算掘金社交网络
本文转自:http://content.businessvalue.com.cn/post/4352.html?utm_source=sina&utm_medium=weibo&utm_campaign=businessvalue 随着社交网络的发展及普及,其拥有的海量数转载 2011-08-31 14:29:34 · 870 阅读 · 0 评论 -
数据挖掘之决策树分类模型
数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类和预测是两种数据分析形势,可以用于提取描述重要数据类的模型和预测未来的数据趋势。 数据分类(data classfication)是一个两步过程。第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label a转载 2011-11-08 09:25:55 · 3223 阅读 · 0 评论 -
Weka中常见问题解答列表
1.关于聚类中距离计算的问题Q:Hi...if some of my variables are catogoricals...some are numeric............to do cluster analysis, I should use Gower's distance ........am i right? Is there other options转载 2011-11-08 09:46:42 · 1373 阅读 · 0 评论 -
svm(libsvm)在文本分类中的应用
预备知识:1)svm:svm(support vector machine)即支持向量机,是一种机器学习算法,2000年左右开始火爆,被认为是(2005年论文上写的)目前分类算法中最好的二个之一(还有一个是boost方法,即使用多个 低分辨率的分类器线性组合成一个高分辨率的模式);根据它的原理,个人认为它和人工神经网络的计算公式本质一样,虽然它们的类切分方式不一样。至少svm是完全的基于超平面转载 2011-11-09 09:45:46 · 1081 阅读 · 0 评论 -
海量数据处理分析(转载)
转载自:http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,转载 2012-02-09 14:48:45 · 438 阅读 · 0 评论 -
海量数据处理算法设计
本文将向您讲述诸多数据处理面试题以及方法的总结。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐转载 2012-02-10 15:09:05 · 501 阅读 · 0 评论 -
机器学习是什么
这篇文章转自:http://hi.baidu.com/macula7/blog/item/8a3f22cd9587f81a00e92829.html里面称作者是周志华,我无从考证,只是转载。个人感觉写得很不错。转载至此。机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。问转载 2012-02-21 15:04:37 · 520 阅读 · 0 评论 -
weka –Apriori算法 关联规则挖掘详解
本文转自:http://blog.csdn.net/haosijia929/article/details/5596939一、Apriori算法参数含义本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据。 ToolsàArffViewer,打开contact-lenses,可以看到实验数据contact-l转载 2012-02-28 09:50:19 · 15454 阅读 · 4 评论 -
Weka开发 —KMeans源码介绍
本文转载自:http://www.chinakdd.com/portal.php?mod=view&aid=124975 以前介绍的都是分类的内容,这一次介绍聚类,以最简单的SimpleKMeans源码为例。 分类中训练一个分类器是用buildClas转载 2011-08-22 16:38:25 · 1069 阅读 · 0 评论 -
挖潜无极限---数据挖掘技术与应用热点扫描
转自:http://bbs.xml.org.cn/blog/more.asp?name=topcio&id=16699 “我们把世界看成数学,并且把你也看成数学”——用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过。如今,虽然一些行业在应用这一技术上仍 然缺乏转载 2011-09-13 15:50:31 · 1363 阅读 · 0 评论 -
当前几个主要的Lucene中文分词器的比较
1. 基本介绍:paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代转载 2011-07-21 09:24:55 · 377 阅读 · 0 评论 -
ictclas4j的一个bug
不知道用ictclas4j的人多不多,该项目地址是http://code.google.com/p/ictclas4j/ 关于ictclas分词系统讨论组地址是http://groups.google.com/group/ictclas其中在ictclas4j项目的issues中转载 2011-07-21 14:22:46 · 486 阅读 · 0 评论 -
海量数据处理方法总结
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下转载 2011-07-27 08:53:35 · 310 阅读 · 0 评论 -
Hadoop计算文档的中每个词的TFIDF值
做数据挖掘的最常见的就是要对文档向量化,而向量化表示中最常见的就是TFIDF了。那么对于海量数据我们该如何计算呢?本文讲解一下使用Hadoop计算TFIDF值的步骤,在其它地方也有不少这方面的介绍,本文仅供参考。 在本地进行TFIDF计算需要三步:1. 统计数据集中独转载 2011-07-27 16:36:07 · 1179 阅读 · 0 评论 -
文本分类之特征简约
转自:http://hi.baidu.com/algorithms/blog/item/565243d9c5c009e238012f1e.html feature reduce(特征简约)在classify(分类)中是一个常见的技术。它的主要目的是降维。在文本分类中,所谓的降维转载 2011-07-27 09:20:11 · 581 阅读 · 0 评论 -
Matrix67:漫话中文分词算法
记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事转载 2011-07-20 17:36:58 · 1280 阅读 · 0 评论 -
海量数据处理、分析与挖掘:机遇与挑战
2011年2月11日出版的《科学》杂志刊登专题——《数据处理》(Special Online Collection: Dealing with Data),围绕目前研究数据的海量增加展开讨论。专题导言文章《挑战与机遇》(Challenges and Opportunities)介转载 2011-07-20 13:47:18 · 1502 阅读 · 0 评论 -
weka 分类学习
本文转载自:http://www.blogjava.net/liutomcat/articles/320170.html Weka,是一个用Java编写的数据挖掘软件。数据挖掘,从字面上来看,它是一个从数据中找寻有用信息的过程,不过,它涉及的内容很多,所以,这里借用“转载 2011-08-08 11:23:30 · 2258 阅读 · 0 评论 -
weka 资料集合
本文转载自:http://datadig.blog.163.com/blog/static/1712299282010817111914241/ 从前年开始使用weka最数据挖掘方面的研究,到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结,我也想整理一转载 2011-08-09 15:13:18 · 4538 阅读 · 1 评论 -
引用 Weka学习五(ROC简介)
本文转自:http://liouwei20051000285.blog.163.com/blog/static/252367420091016104545884/ 今天我们来介绍一下ROC(Receiver operating characteristics转载 2011-09-07 17:09:24 · 2388 阅读 · 0 评论 -
WEKA编写新学习方案
1. 编写新学习方案如果用户需要实现一个Weka所没有的特殊目的的学习算法,或者用户正在进行机器学习的研究,并且想试验一个新的学习方案,或者用户只是想通过亲自动手编程,了解更多有关一个归纳算法的内部运作,本节用一个简单的范例演示在编写分类器时,如何充分利用Wek转载 2011-09-13 14:11:29 · 1034 阅读 · 0 评论 -
大数据下的数据分析平台架构
本文转自:http://www.programmer.com.cn/7617/随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压转载 2012-03-13 16:41:56 · 796 阅读 · 0 评论