![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
kingzone_2008
对于机器学习数据挖掘相关技术有浓厚兴趣
展开
-
数据挖掘系列之二:数据挖掘概述
1.why(为什么需要数据挖掘)数据库系统经历了如下的技术演变:数据收集和数据库创建,数据管理(DBMS,包括数据存储和检索,联机事务处理OLTP),以及高级数据分析(涉及数据仓库和数据挖掘)。当前常见的数据集形式为多个异构数据源在单个站点以统一的模式组织的储存库,即数据仓库。数据仓库技术包括数据清理、数据集成和联机分析处理OLAP。-OLTP:主要用于增删改查操作,着眼于事务处理的及时性原创 2012-11-03 17:28:00 · 3192 阅读 · 0 评论 -
CTR点击率预估干货分享
1.指标广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1.排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。2.数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我们出价会相对保守,从而使得预算花不...转载 2018-06-01 10:51:23 · 14439 阅读 · 1 评论 -
KNN(三)--KD树详解及KD树最近邻算法
之前blog内曾经介绍过SIFT特征匹配算法,特征点匹配和数据库查、图像检索本质上是同一个问题,都可以归结为一个通过距离函数在高维矢量之间进行相似性检索的问题,如何快速而准确地找到查询点的近邻,不少人提出了很多高维空间索引结构和近似查询的算法。 一般说来,索引结构中相似性查询有两种基本的方式:一种是范围查询,范围查询时给定查询点和查询距离阈值,从数据集中查找所有与查询点距离小于阈值的数据另一...转载 2018-05-22 11:32:13 · 5210 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复...转载 2018-05-25 11:21:20 · 20200 阅读 · 0 评论 -
范数与距离的关系以及在机器学习中的应用
1 范数向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| 常用的向量的范数:L1范数: ||x|| 为x向量各个元素绝对值之和。L2范数: ||x||为x向量各个元素平方和的1/2原创 2013-11-10 20:00:30 · 56897 阅读 · 8 评论 -
[Kaggle] 数据建模分析与竞赛平台介绍
IntroductionKaggle是一个数据建模和数据分析竞赛的平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛,通过“众包”的形式以产生最好的模型。Kaggle可以分为Competitions竞赛、Datasets数据集以及Kernel内核三个子平台、配套的Forum论坛模块以及供各类公司或组织招聘人才的Jobs模块。Kaggle首页 Your H转载 2016-11-20 17:30:57 · 4588 阅读 · 1 评论 -
Apriori算法实现
Apriori算法原理:http://blog.csdn.net/kingzone_2008/article/details/8183768import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import java.util.Map;import java.util.Set;i原创 2013-12-04 22:25:44 · 9368 阅读 · 14 评论 -
数据挖掘系列之一(数据仓库之一):数据仓库概述
数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据仓库收集了整个组织的主题信息,因此它是企业范围的。数据集市(data mart)是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。数据仓库非常适合联机分析处理(OLAP)。OLAP操作包括下钻(drill-d原创 2012-11-02 20:15:11 · 6780 阅读 · 0 评论 -
数据挖掘(七):关联规则挖掘:Apriori算法、频繁模式挖掘
1 算法思想算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1.然后,L1用于找频繁2项集的集合L2,L2用于找L3,如此迭代,直到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。Apriori性质可用于压缩搜索空间,提高频繁原创 2013-07-24 13:37:44 · 9553 阅读 · 0 评论 -
关联规则挖掘:FP-Growth算法
FP-Growth算法不同于Apriori算法的“产生-测试”模型,而是使用一种称作FP树的紧凑数据结构组织数据,并直接从该结构中提取频繁项集。FP-Growth算法步骤:1)导出频繁一项集。数据库的第一次扫描与Apriori相同,它导出频繁1项集的集合和支持度计数。频繁项的集合按支持度计数的递减序排列。结果列表记作L。2)构造FP树然后,FP树的构造如下。首先,创建树的根节点原创 2013-11-28 19:04:11 · 7269 阅读 · 0 评论 -
数据挖掘(六):预测
数据挖掘的任务分为描述性任务(关联分析、聚类、序列分析、离群点等)和预测任务(回归和分类)两种。本文简介预测任务。数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上,对天地万物进行性状归类(天干地支五行论),精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体的信原创 2013-05-27 01:31:51 · 52744 阅读 · 7 评论 -
数据挖掘系列之三:频繁模式、关联和相关
1.频繁项集1.1理解基本概念项集的出现频率:包含项集的事务数。也称作频率、支持度计数、计数。只要得到A,B和A交B的支持度计数,就可以导出对应的关联规则A=>B和B=>A,并检查它们是否是强规则。如此,挖掘关联规则的问题就可以归结为挖掘频繁项集。一般地,关联规则的挖掘可以看做两步的过程:1)找出所有的频繁项集:满足最小支持度min_sup;2)由频繁项集产生强关联规则:同原创 2012-11-04 01:40:24 · 7454 阅读 · 1 评论 -
数据分析:Weka,Matlab,R,SPSS,SAS等分析软件的入门
1 功能角度weka是机器学习方面的工具(开源)。spss是数学工具(商业工具)。具体的说,weka的主要功能是模式分类,或者模式识别或者回归。包括特征的降维(PCA),特征选择,训练模型以及对测试样本进行分类测试,几乎包含了机器学习中的所有常用分类器。当然还有聚类以及结果的图形可视化功能。spss,侧重统计分析。包括基础的数学运算,联合分析,时间序列分析,多元尺度方法等,当然它也有决原创 2013-08-20 15:09:18 · 9651 阅读 · 0 评论 -
Weka连接Oracle数据库
Weka提供连接数据库的功能,本文仅就连接Oracle的情况举例说明如何进行设置。1. 下载Oracle数据库驱动jar包,一般为ojdbc14.jar或者oracle-10.2.0.1-jdbc14.jar,放到某个目录下。假设E:\Eb\Weka-3-6\目录下。2. 在weka安装目录下找到weka.jar文件,使用winrar(或其他压缩软件)打开,找到"weka/experime原创 2013-06-17 19:07:21 · 4355 阅读 · 0 评论 -
数据挖掘系列之四(数据仓库之二):数据仓库设计--Kimball方法
(注意:本文介绍的是数据仓库设计的Kimball方法,即多维模型;关系模型,即Inmon方法参见(四))1. OLAP(联机分析处理)与OLTP(联机事务处理)主要区别用户和系统的面向性:OLTP面向事务,日常操作;OLAP面向分析,用于决策支持。数据内容:OLTP当前数据;OLAP历史数据数据库设计:OLTP使用ER图、面向应用;OLAP使用星形模式或雪花,面向主题。视图:O原创 2012-12-07 14:25:09 · 6782 阅读 · 0 评论 -
数据挖掘(五):聚类
聚类是数据挖掘描述任务的一个重要组成部分。数据挖掘任务包括描述性任务和预测性任务两种。描述性任务包括聚类、关联分析、序列、异常检测等,预测性任务包括回归和分类。聚类:将数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低。从这个简单的描述中,可以看出聚类的关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、密度等。1 基于距离度量对象相似性的思想原创 2013-05-25 22:44:45 · 21172 阅读 · 2 评论 -
特征处理(Feature Processing)
原文链接:http://breezedeus.github.io/2014/11/15/breezedeus-feature-processing.html特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Fe...转载 2018-06-01 11:27:33 · 1259 阅读 · 0 评论