数据挖掘入门
文章平均质量分 67
-Shonna-
这个作者很懒,什么都没留下…
展开
-
数据挖掘学习路线
书籍:1、机器学习 Machine Learing (美)Tom M.Mitchell 曾华军 张银奎 等译2、数据挖掘概念与技术 Data Mining Concepts and Techniques Third Edition(第三版) Jiawei Han,Micheline Kamber ,Jian Pei 著脉络图FROM:http://www.healthcares原创 2016-03-08 07:27:21 · 781 阅读 · 0 评论 -
利用R语言如何判别和分类
楼主在学习数据挖掘期间,老师讲了很多的判别和分类方法,只是没有平时时间整理,这次利用周末的时间特地整理自己以前的知识点,这篇文章会引用大量网上的图片和文字,若有侵权,及时告知,本人会马上修改。这篇文章中的案例统一使用著名的鸢尾花数据。若有错误,也请及时指出,大家相互学习,共同进步 判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建转载 2016-04-21 16:42:12 · 2815 阅读 · 0 评论 -
聚类分析
1原创 2016-04-21 15:04:26 · 4307 阅读 · 0 评论 -
分类:最近邻knn
最近邻分类是一种很符合直觉的思维方式,它是将未知的对象与已知的相比较,如果各个属性相近,我们就把他们归为一个类别。kth Nearest Neigbour将数据看作在多元空间的点,‘1)先计算未知点和周围k个已知点之间的距离2)然后根据周围k个已知点的类别进行投票来决定未知点的类别如:k=3,对某个未知点找出其周围最近的三个已知点,如果这三个点中有两个属于A类,一个属于原创 2016-06-03 11:40:56 · 365 阅读 · 0 评论 -
R语言中的哪些命令或者包让你相见恨晚
我从开始学R到现在一直都在发现“相见恨晚”的R包。分析与建模:Matrix包:先进的稀疏矩阵处理,不了解稀疏矩阵概念的时候内存占用和运行速度都不忍直视。Reshape2/ddply:数据处理不用愁。*apply系列:比for更好用的函数,其中tapply远不如lapply流行,但是实用程度不在其下。实际上lapply有没有变快得看各人的实现,因为虽然lapply调用转载 2016-06-03 17:13:02 · 2872 阅读 · 0 评论 -
常用R包内容梳理
1原创 2016-06-03 17:10:32 · 668 阅读 · 0 评论 -
分类的R语言实现
分类----------------------决策树、贝叶斯、knn、神经网络、集成学习、随机森林原创 2016-06-03 11:01:02 · 4564 阅读 · 0 评论 -
文本挖掘
本文主要介绍文本挖掘的常见方法,主要包括词频分析及wordcloud展现、主题模型、文本分类、分类评价等。分类主要包括无监督分类(系统聚类、KMeans、string kernals),有监督分类(knn、SVM)。一、文本挖掘概念 将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge转载 2016-06-03 21:52:03 · 2523 阅读 · 0 评论