数据挖掘
奋斗的鱼
这个作者很懒,什么都没留下…
展开
-
数据预处理--数据格式csv、arff等之间的转换
ARFF文件是Weka默认的储存数据集文件。每个ARFF文件对应一个二维表格。表格的各行是数据集的各实例,各列是数据集的各个属性。下面是Weka自带的“weather.arff”文件,在Weka安装目录的“data”子目录下可以找到。 需要注意的是,在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF原创 2015-05-15 11:46:21 · 8823 阅读 · 0 评论 -
Weka常见运行错误
1、OutOfMemoryException(内存不足例外)大多数Java虚拟机只分配一定数额的最大内存来运行Java程序,通常远低于计算机中的内存大小。但是,可以通过设置适当的选项,扩展虚拟内存。例如,可以用命令:java-Xmx512m ...设置最大Java堆的大小为512MB。还可以使用Xmx2g将其设置为2GB,这样就足够使用。当然,这还要看计算机的配置,设置过大的内存会影原创 2015-05-13 20:41:23 · 4649 阅读 · 0 评论 -
weka连接数据库
一、配置文件 1、设置CLASSPATH,如图: 2、使用UTF-8数据集或文件(可省略) 修改安装目录下的RunWeka.ini文件,步骤如下: 步骤1:用任意文本编辑器打开RunWeka.ini文件 步骤2:在32行找到fileEncoding=Cp1252,将Cp1252改为utf-8 3、配置DatabaseUtils.props文件 Weka只会去寻找名转载 2015-05-13 21:56:21 · 599 阅读 · 0 评论 -
数据挖掘--分类算法的优缺点
1决策树(Decision Trees)的优缺点决策树的优点:一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的转载 2014-08-19 11:41:05 · 2896 阅读 · 1 评论 -
将arff格式文件导入到mysql数据库
weka中有许多arff格式的数据文件,有时为方便操作,需要把他们放到数据库中,现以Weka安装目录下data文件夹中的iris.arff文件为例。 1、先在weka中将arff文件转换为csv文件,这一步使用weka打开,然后另存为csv格式的文件即可。2、然后删除csv文件中第一行对属性名的描述,如下图。 2、保存,并放到数据库数据文件目录下(如C:\Prog原创 2015-05-15 11:30:16 · 1912 阅读 · 0 评论 -
Weka算法Classifier-tree-J48源码分析(四)总结
一、ClassifyInstance首先先说一下构造好的分类树是如何对一个新的Instance进行区分。直观上,会对树进行一个检索,从根节点根据属性的不同,最终走到叶子节点,得到具体的分类。但Weka在实现上,是遍历了这个Instance属于不同的class的可能性,并从中选出了一个最大的,代码如下:[java] view plaincopy p转载 2015-03-12 11:08:01 · 984 阅读 · 0 评论 -
数据挖掘工程师笔试及答案整理
一、简答题(30分)1、简述数据库操作的步骤(10分)步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存。2、TCP/IP的四层结构(10分)3、什么是MVC结构,简要转载 2015-08-08 15:49:33 · 1296 阅读 · 0 评论 -
常用推荐算法对比
在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐 基 于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在转载 2015-08-06 19:48:31 · 939 阅读 · 0 评论 -
连续特征离散化的好处
在实现某些算法时,只看到结论说有的连续特征需要离散化,离散化后效果会更好,巴拉巴拉。。。但是为什么要离散化还一直是云里雾里,今天特意研究了一下,记录如下:1. 离散特征的增加和减少都很容易,易于模型的快速迭代;2. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;3. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常原创 2015-08-06 21:00:42 · 5009 阅读 · 1 评论 -
k-means算法和KNN算法的比较
k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚转载 2015-08-06 21:38:54 · 793 阅读 · 0 评论 -
数据仓库建模方法
所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模转载 2015-08-08 16:38:34 · 622 阅读 · 0 评论 -
数据挖掘常见面试题
统计知识给定一个分类器p,它有0.5的概率输出1,0.5的概率输出0。Q1:如何生成一个分类器使该分类器输出1的概率为0.25,输出0的概率为0.75? Ans:连续进行两次分类,两次结果均为1则输出1,其余情况(10,01,00)均输出0。Q2:如何生成一个分类器使该分类器输出1的概率为0.3,输出0的概率为0.7? Tip:小明正在做一道选择题,问题只有A、原创 2015-09-11 20:29:54 · 1567 阅读 · 0 评论 -
基本Kmeans算法介绍及其实现
1.基本Kmeans算法[1][cpp] view plaincopy选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数转载 2015-09-27 11:00:10 · 499 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。http://blog.csdn.net/v_july_v/article/details/7624837前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难转载 2015-10-19 21:02:10 · 1106 阅读 · 0 评论 -
聚类分析中距离度量方法比较
聚类分析中如何度量两个对象之间的相似性呢?一般有两种方法,一种是对所有对象作特征投影,另一种则是距离计算。前者主要从直观的图像上反应对象之间的相似度关系,而后者则是通过衡量对象之间的差异度来反应对象之间的相似度关系。 如图(1)所示:假设X坐标轴为时间,Y坐标轴为繁殖率,则可以看出三种不同的物种在不同时间段的繁殖情况,由于分别在10,40,80三个数值附近,因此根转载 2015-09-16 17:34:41 · 27993 阅读 · 0 评论 -
数据挖掘常见算法思想对比学习
转:http://www.chinakdd.com/article-oyU85v018dQL0Iu.html前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科转载 2015-04-17 19:51:40 · 1087 阅读 · 0 评论 -
数据挖掘相关数据集来源整理
《UCI数据集和源代码》UCI数据集是一个常用的标准测试数据集,下载地址在http://www.ics.uci.edu/~mlearn/MLRepository.html也有整理好的一些UCI数据集(arff格式):http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip在看别人的论文时,别人使用的数据集转载 2015-04-15 14:37:01 · 3199 阅读 · 0 评论 -
Weka算法Classifier-tree-J48源码分析(三)ModelSelection
ModelSelection主要是用于选择合适的列对数据集进行分割,结合上一篇J48的主流程,发现用到的ModelSelection有 C45ModelSelection以及BinC45ModelSelection,先来分析C45ModelSelection。一、C45ModelSelection首先作为一个ModelSelection接口,实现的主要方法有两个,分别是select转载 2015-03-12 11:07:33 · 450 阅读 · 0 评论 -
朴素贝叶斯实现文本分类(1)
【背景】 实习时,因工作需要,需要实现提取筛选出能够代表某类文档的关键词,最终达到文档去重的效果。在这个过程中,筛选代表性关键词是非常关键的一步,我当时的一种思路:1、首先按照经典的TF-IDF公式(好几种变形,选取准确率最高的一种)算出各关键词权重,在这之前已经去掉停用词等明显不具备代表性的关键词;2、提取一定量关键词作为假设的类别关键词,使用朴素贝叶斯分类法对文档进行分类;原创 2014-12-16 17:31:58 · 1123 阅读 · 0 评论 -
朴素贝叶斯实现文本分类部分代码(2)
import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.util.List;import com.doc88.bean.PaperHandled;import com.doc88.dao原创 2014-12-17 16:25:03 · 732 阅读 · 0 评论 -
分类算法--并行逻辑回归算法
逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中,由于受到单机处理能力和效率的限制,在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进转载 2015-03-19 14:16:04 · 1430 阅读 · 0 评论 -
C4.5算法建立决策树JAVA实现
转载连接:http://www.cnblogs.com/lixusign/archive/2012/06/13/2548124.html当前的属性为:age income student credit_rating当前的数据集为(最后一列是TARGET_VALUE):---------------------------------youth high转载 2015-03-03 11:51:50 · 5861 阅读 · 2 评论 -
K-Means算法的代码实现(Java)
//package cn.edu.pku.ss.dm.cluster;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;impo转载 2015-03-03 12:04:19 · 848 阅读 · 0 评论 -
weka 中的算法名说明
1) 数据输入和输出WOW():查看Weka函数的参数。Weka_control():设置Weka函数的参数。read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。2) 数据预处理转载 2015-03-05 11:16:34 · 467 阅读 · 0 评论 -
Weka算法Classifier-tree-J48源码分析(一)算法和基本数据结构
下面一系列文章转载地址:http://blog.csdn.net/roger__wong/article/details/38987639Weka为一个Java基础上的机器学习工具,上手简单,并提供图形化界面,提供如分类、聚类、频繁项挖掘等工具,本篇文章主要写一下分类器算法中的J48算法及其实现。一、算法J48是基于C4.5实现的决策树算法,对于C4.5算法相关资料太多了,转载 2015-03-05 13:53:05 · 622 阅读 · 0 评论 -
Weka入门教程
先把链接贴上,防止忘记WEKA入门:http://www.360doc.com/content/11/0524/20/4910_119124476.shtml转载 2015-03-05 15:55:04 · 1859 阅读 · 1 评论 -
TF-IDF算法的java实现
转载地址:http://xwrwc.blog.163.com/blog/static/46320003201010634132451/一、算法简介 TF-IDF(term frequency–inverse document frequency)。 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词转载 2015-03-05 10:51:33 · 3389 阅读 · 0 评论 -
Weka介绍--使用Weka进行数据挖掘
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境(Waikato En原创 2015-03-06 21:50:17 · 2308 阅读 · 1 评论 -
Weka进阶——基于KDD99数据集的入侵检测分析
Weka是一个功能非常强大的数据挖掘工具,但是网络上的相关教程却极其稀少,尤其是没有一套系统的教程指导用户处理较大数据集(>50mb)。这篇文章是我这学期一门课程作业的总结,主要内容是利用Weka分析KDD99的数据集,训练分类器以解决问题。文章的所有过程都是在Explorer界面中进行的。关于KDD99数据集的介绍,可以移步这儿,在此不多做介绍。对于初学者来说,处理大数据集的难点主要在于:转载 2015-03-06 15:07:38 · 18806 阅读 · 8 评论 -
WEKA开发环境的建立(Windows+NetBeans版)
转载:http://hi.baidu.com/sjmclc/blog/item/8beef445276c8325cffca397.htmlWEKA开发环境的建立(Windows+NetBeans版)1. 下载安装JDK环境 JDK的最新版是6.0了,在这个页面可以找到它的下载 http://java.sun.com/javase/downloads/index.jsp 点击JDK转载 2015-03-08 20:36:41 · 470 阅读 · 0 评论 -
Weka-- Apriori算法实例操作详解
一、Apriori算法参数含义本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据。 ToolsàArffViewer,打开contact-lenses,可以看到实验数据contact-lenses共有24条记录,5个属性值。具体内容如下:结合实验结果阐释下列12个参数的含义1.转载 2015-03-11 16:28:38 · 2830 阅读 · 0 评论 -
Weka开发---在你的代码中使用Weka
无意间在网上看到了:http://weka.wiki.sourceforge.net/Use+Weka+in+your+Java+code,相对我写的代码,它的当然更有权威性。翻译完了,第一次翻译,术语的汉语很多不清楚。还没有校对,有什么错误请告诉我。你可能要用的最常用的组件(components)是:l Instances 你的数据l Filter 对数据的预处理l Cla转载 2015-03-10 21:58:14 · 4097 阅读 · 1 评论 -
Weka算法Classifier-tree-J48源码分析(二)ClassifierTree
一、问题主要带着四个问题去研究J48的实现。1、如何控制分类树的精度。2、如何处理缺失的值(MissingValue)3、如何对连续值进行离散化。4、如何进行分类树的剪枝。二、BuildClassifier每一个分类器都会实现这个方法,传入一个Instances对象,在这个对象基础上进行来构建分类树。核心代码如下:[java] view转载 2015-03-12 11:01:34 · 625 阅读 · 0 评论 -
Adaboost 算法
一 Boosting 算法的起源boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。这套理论主要研究的是什么时候一个问题是可被学习的,当然也会探讨针对可学习的问题的具体的学习算法。这套理论是由Valiant提出来的,也因此(还有其他贡献哈)他获得了2010年的图灵奖。PAC 定义了学习算法的强弱 弱转载 2015-10-06 11:41:32 · 622 阅读 · 0 评论