数据挖掘
Star先生
技术为本,行业为先!
展开
-
宝贵数据集——用于数据挖掘、机器学习、文本挖掘
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/data.html http://kdd.ics.uci.edu/summary.task.type.html原创 2015-08-09 18:55:00 · 3530 阅读 · 0 评论 -
Java实现高斯模糊算法处理图像
高斯模糊(英语:Gaussian Blur),也叫高斯平滑,是在Adobe Photoshop、GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次。 简介高斯模糊(Gaussian Blur)是美国Adobe图像软件公司开发的一个图像处理软件:Adobe Photoshop(系列)中的一个滤镜,具体的位置在:滤镜—模糊——高斯模糊!高斯模糊的原原创 2015-12-21 21:53:11 · 13576 阅读 · 15 评论 -
数据挖掘中分类与预测的区别
分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。原创 2015-11-30 16:55:17 · 9347 阅读 · 1 评论 -
基于 ReliefF和K-means算法的应用
数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,数据挖掘是目前国际上,数据库和信息决策领域的最前沿研究方向之一。因此分享一下很久以前做的一个小研究成果。也算是一个简单的数据挖掘处理的例子。 数据挖掘与聚类分析概述数据挖掘一般由以下几原创 2015-11-28 23:32:13 · 5774 阅读 · 0 评论 -
利用Hadoop和Spark处理用户心跳周期数据
数据源:可穿戴设备的实时数据分析。1.txt记录的是某一个用户的心跳周期数据,每一个数值表示一次心跳的周期,单位是秒。例如,0.8表示用户当时的心跳间隙是0.8秒。心跳间期按照顺序存储原创 2015-11-27 10:44:32 · 2522 阅读 · 0 评论 -
数据挖掘算法与现实生活中的应用案例
如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘的知识,你,或许会有柳暗花明的感觉。本文,主要想简单介绍下数据挖掘中的算法,以及它包含的类型。然后,通过现实中触手可及的、活生生的案例原创 2015-10-26 19:19:08 · 25610 阅读 · 0 评论 -
数据挖掘导论学习笔记之分类基本概念、决策树与模型评估
分类分类任务的输入数据是记录的集合,每条记录也称实例或样例,用元组(x,y)来表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号。类标号在分类中是离散属性,回归确是一种预测建模任务,其中目标属性y是连续的。概念 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。 目标函数也称分类模型,具有以下目的:描述性建模。分类模型可以作为解释性工具,用于区原创 2015-10-11 22:05:12 · 2611 阅读 · 0 评论 -
数据挖掘导论笔记之探索数据
鸢尾花鸢尾花(Iris)数据集可以从加州大学欧文分校(UCI)的机器学习库中获取,包含150种鸢尾花的信息,每50种取自三个原味鸢尾花种之一:Setosa、Versicolour和Virgincia。每个花的特征用下面5种属性描述。萼片长度(厘米)萼片宽度 (厘米)花瓣长度(厘米)花瓣宽度(厘米)类 (Setosa、Versicolour和Virgincia) 花的萼片是花的外部结构,保原创 2015-10-11 17:04:55 · 1740 阅读 · 0 评论 -
浅谈Weka
Weka系统汇集了最前沿的机器学习算法和数据预处理工具,以便用户能够快速灵活地将已有的据处理方法应用于新的数据集。它为数据挖掘的整个过程提供全面的支持,包括准备输入数据、统计评估学习方案、输入数据和学习效果的可视化.Weka除了提供大量学习算法之外,还提供了适应范围很广的预处理工具,用户通过一个统一界面操作各种组件,比较不同的学习算法,找出能够解决问题的最有效的方法。 Weka系统包括处理标准原创 2015-09-17 10:55:59 · 8914 阅读 · 0 评论 -
数据挖掘导论总结之分类技术
博主是浙江大学一名在校学生,现在把这几天读的《数据挖掘导论》中的几个常见的分类技术进行简要的总结汇报,做成PPT并截图,有什么不对的地方欢迎大家指正。原创 2015-10-18 20:21:36 · 1976 阅读 · 0 评论 -
分类算法
本文总结了数据挖掘和机器学习过程中分类算法如神经网络算法、随机森林算法以及决策树等,希望能对数据挖掘爱好者有一定帮助。神经网络算法简介逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法。这种思维方式的根本之原创 2015-07-28 10:35:12 · 3760 阅读 · 0 评论 -
孤立点挖掘算法
孤立点是数据集中不符合一般模型的那些对象,即和其它 的数据有着不同的性质。它可能是度量或执行错误所导致的,也可能是固有数据变异性的结果原创 2015-07-22 13:17:13 · 4811 阅读 · 0 评论 -
一种面向高维数据的集成聚类算法
聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。很多学者的研究证明聚类集成能有效地提高聚类结果的准确性、鲁棒性和稳定性。本文提出了一种面向高维数据的聚类集成算法。该方法针对高维数据的特点,先用分层抽样的方法结合信息增益对每个特征簇选择合适数量比较重要的特征的生成新的具代表意义的数据子集,然后用基于链接的方法对数据子集上生成原创 2015-08-01 21:23:24 · 19529 阅读 · 8 评论 -
Apriori算法
基本原理关联分析(association analysis)就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是,寻找物品的不同组合是一项十分耗时的任务,所需计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间内找到频繁项集。Apriori算法正是基于该原理得到的。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系分为两种形式:频繁项集和关联规则。频繁项集(原创 2015-08-12 09:48:26 · 1774 阅读 · 0 评论 -
Scrapy安装及使用
本文介绍了常见的网络爬虫工具Scrapy的安装及使用过程,另外介绍了Scrapy运行时常见问题以及相应解决办法,希望能对您的学习带来帮助。原创 2015-07-22 20:35:10 · 4568 阅读 · 1 评论 -
K近邻算法
k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。原创 2015-08-09 19:10:46 · 1366 阅读 · 0 评论 -
利用文本挖掘技术来找出《天龙八部》中的“小鲜词”
开始之前,先看一下从人人网中发现的90后用户爱用的词是不是很好玩,哈哈。写这篇文章就是让你简单的自动的从文本中找出新的词,这样就知道现在的年轻人喜欢什么了(对于博主这种上了年纪的人来说,真的是很有用,呜呜)项目结构当然,text.dat和common.dic这两个文件你可以随意替换,注意text.dat中的数据一定要够份量,否则没啥效果原理么,看下Matrix67大牛的文章你就懂了互联网时代的社会语原创 2016-10-09 17:55:51 · 3508 阅读 · 1 评论