DataMining_MachineLearning
文章平均质量分 63
feliciafay
开发工程师
展开
-
《SQL Server 2005数据挖掘与商业智能完全解决方案》学习笔记(1/12-3/12)
商业智能实际上包含两个层次:第一个层次是在整合系统数据的基础上提供灵活的前端展现。第二个层次是数据库中的知识发现。知识发现的主要技术构成是数据挖掘。这种层次关系类比自然界中的普遍规律来理解,比如生态系统中的层次,食物链中的层次,软件架构的层次(MVC)等等。 一般,业务数据中的表的关系要基于关系数据库设计的范式,而数据仓库中的表不受关系数据库设计范式的约束。 在S原创 2010-05-06 00:53:00 · 1427 阅读 · 0 评论 -
Stanford Machine Learning 公开课笔记(5) Machine Learning System Design
常见问题场景 如何做一个spam classifier?supervised learning. spam(1), not spam(0)features: choose 100 words indicative of spam/not spam —improve—> pick most frequent 10,000~50,000 words instead of manually pi原创 2014-07-27 15:33:19 · 1681 阅读 · 0 评论 -
Stanford Machine Learning 公开课笔记(4) Advice for Machine Learning
Professor’s Recommended Procedure1 If you rely on your gut feeling and just randomly choose different ways to improve, your problem will easily scale into 6 months or more. 推荐做法是,先用一个模型快速进行工程的实现,然原创 2014-07-27 15:17:19 · 2246 阅读 · 0 评论 -
Stanford Machine Learning 公开课笔记(3) Neural Network
最近在Coursera上学习Stanford的Andrew Ng的Machine Learning公开课,也做笔记,写作业。本章是Neural Network, 记录一下我的笔记。大部分是课堂视频截图,形式比较丑。同样,首先记录自己的几个疑问原创 2014-05-07 02:15:06 · 6038 阅读 · 0 评论 -
Stanford Machine Learning 公开课笔记(2) Logistic Regression
最近在Coursera上学习Stanford的Andrew Ng的Machine Learning公开课,也做笔记,写作业。记录一下我的笔记。大部分是课堂视频截图,形式比较丑。原创 2014-05-07 00:52:50 · 9093 阅读 · 1 评论 -
Stanford Machine Learning 公开课笔记(1) Linear Regression
【NOTES】regression: to predict the continues valued output.classification: to predict the discrete valued output.如何用ML algorithm处理有infinite number of features?SVM会有mathematical tr原创 2014-04-05 15:12:26 · 5553 阅读 · 1 评论 -
一淘的广告处理平台很好玩儿嘛
看了一个很好玩儿的PPT,叫做《一淘广告机器学习平台-蒋龙昙宗》一淘的广告系统看来规模不错。在处理数据的时候,分开使用了Hadoop和MPI。使用Hadoop进行数据处理,使用MPI进行模型训练。在进行CTR预估的时候,使用了混合逻辑回归模型。原理很简单,使用一个线性模型(ad_pv)将数据分到两个领域中。对第一个领域的数据使用模型A(ad_ctr)来进原创 2012-11-28 18:33:45 · 1747 阅读 · 0 评论 -
数据挖掘读书心得(理论篇)
整理整理最近的学习心得,理论和实践各写一文。本文是对理论的整理。主要知识来自于以下两本书1.《数据挖掘基础教程》(印)K.P.Soman Shyam Diwakar2.《数据挖掘技术-- 市场营销、销售与客户关系管理领域应用》(美)Michael J.A.Berry 先做个简单的评价,第1本书的亮点是决策树那章,这是是我见到的书中讲得最详细的。第2本书的亮点是人工神经网络那章,这是是我见到的书中讲得最详细的。另外,第二本书提供了大量实例,概念的描述是依托于这些实例的描述,这使得理解变得很容易。现在,开始做内原创 2011-03-30 16:37:00 · 3945 阅读 · 1 评论 -
《数据挖掘概念与技术》学习笔记第9-10章_复杂数据类型的挖掘+数据挖掘的应用和发展趋势(9/10)+(10/10)
<br />空间数据<br />多媒体数据<br /> 例:图像数据<br /> 基于描述的检索系统:关键字,标题,尺寸等<br /> 基于内容的检索系统:颜色构成,纹理,形状,对象和小波变换等。<br />时序数据和序列数据<br /> 趋势分析<br /> 长期变化(长期趋势)<br /> 循环变化(周期变化,如果有的话)<br原创 2010-09-03 15:55:00 · 1684 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第5章(5/10)概念描述: 特征化与比较
<br /><br />概念描述: <br />概念描述产生数据的特征化和比较描述。进行概念描述时,可以采用属性删除和属性概化(attribute generalization) 。 <br />什么叫做属性概化(attribute generalization)? <br />其实就是将具体的内容变得更抽象。 <br />例: place 属性下的Vancouver, BC, Canada 和Montreal, Que, Canada, 和Seattle, Wa, USA 都可以变为Canada 。 <b原创 2010-09-01 18:09:00 · 1091 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第8章(8/10)聚类分析
《数据挖掘概念与技术》学习笔记第8章(8/10)聚类分析聚类分析聚类分析是一种无指导的学习。对于聚类分析的好坏程度的判断标准是:可伸缩性、处理不同类型属性的能力、发现任意形状的聚类,用于决定输入参数的领域知识最小化、处理噪声数据的能力、对于数据记录的顺序不敏感、高维性、基于约束的聚类、可解释性和可用性。数据矩阵二模矩阵(tow-mode)相异度矩阵单模矩阵(one-mode)数据标准化:距离度量欧几里德距离曼哈坦距离明考斯基距离加权的欧几里得距离二元变量的相异度简单匹配系数Jaccard系数标称型变量的相异原创 2010-09-03 15:27:00 · 2659 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第7章(7/10)分类和预测
<br />分类<br />第一步,建立一个模型,描述预定的数据类集或者概念集。<br />第二步,使用模型进行分类。<br />补充说明:<br />1 数据类集或者概念集还可以被称为样本、实例、对象。<br />2为建立模型而被分析的数据类集称为训练数据集。<br />3 这是一种有指导的学习,而在聚类中,使用的是无指导的学习。<br />对分类方法进行评估<br />可以采用的评估标准包括:预测的准确率、速度、强壮性、可伸缩性、可解释性。<br /> <br /><br />判定树的可伸缩性<br原创 2010-09-03 14:50:00 · 1287 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的关联规则
<br /><br />项目集:项的集合,记为I。牛奶,面包,苹果,etc<br />事 务:事务T是I中的一组项目的集合,每个事务都有个一个TID作为标识符号。<br /> <br />项目集X的支持度<br /> Sup(X)=Count(X)/|D|<br />关联规则X->Y的支持度<br /> Sup(X->Y)=Count(X->Y)/|D|<br />关联规则X->Y的置信度<br />Conf(X->Y)=Count( X->Y)/Count(X)<br /原创 2010-09-03 14:33:00 · 1499 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第4章(4/10)数据挖掘原语、语言和系统结构
<br /> <br />语法归纳<br />1说明任务相关的数据<br /><Data_Mining_Statement>::=<br />use database <database_name>| use data warehouse <data_warehouse_name><br />use hierarchy< hierarchy_name> for<attribute_or_dimension>}<br /><Mine_Knowledge_sepcification><br />in relev原创 2010-07-21 01:26:00 · 1158 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第1章(1/10)引言
可伸缩性:一个算法是可伸缩的(scalable),如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。数据仓库data warehouse:数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据集市data mart:数据集市是数据仓库的一个部门子集。孤立点outlier:大部分数据挖掘方法将孤立点是为噪声或异常而丢弃,然而在一些应用中(如欺骗检测),罕见的时间可能比正常出现的那些更有趣。规则:对原创 2010-07-15 13:27:00 · 992 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第3章(3/10)数据预处理
数据清理的方法:针对空缺值:保持空缺或者用最有可能的值补充(平均值,回归预测的值等等)针对噪声数据:1分箱:用箱中数据的平均值代替箱中的每一个数据。分箱也是一种数据平滑技术和数据离散化技术2聚类:通过聚类来检测孤立点(outlier)3计算机和人工检查结合: 4回归:针对不一致数据:修改数据集成:1实体:即识别真实世界中的实体的问题,比如customer_id和另一张表中的cust_number实际上是同一实体。可通过查看元数据来查清。2冗余:通过对两个属性进行相关分析来检测,度量属性A原创 2010-07-15 14:27:00 · 1777 阅读 · 0 评论 -
《数据挖掘概念与技术》学习笔记第2章(2/10)数据仓库和数据挖掘的OLAP技术
多维数据模型:数据仓库和OLTP基于多维数据模型,该模型将数据看成数据立方体(data cube).多维数据模型的形式有:星型模式: 一个事实表,若干维度表雪花模式:一个事实表,若干维度表,但是维度表是规范化的,即进一步把数据分解到附加的表中。省空间,花时间。事实星座模式:多个事实表,它们各自可以有自己独有的维度表,也可以共享维度表,并且维度表可以是规范化的也可以不是规范化的。数据挖掘查询语言DMQL:用DMQL来定义数据立方体:definecube []:用DMQL来定义维度:definedim原创 2010-07-15 13:34:00 · 1290 阅读 · 0 评论 -
《SQL Server 2005数据挖掘与商业智能完全解决方案》学习笔记(4/12)(Part 1)
本文主题是用SSIS对数据进行ETL操作: 首先,安装SQL Server2005自带的数据库AdventureWorks。安装这个数据库分为两种情况。 1如果SQL Server2005已经安装好了却没有安装这个数据库。那么【第一种方法】开始菜单->所有程序->Microsoft Visual Studio 2005->configurationtool原创 2010-05-06 23:00:00 · 1841 阅读 · 0 评论 -
LeetCode(105)Construct Binary Tree from Preorder and Inorder Traversal
题目如下:Given preorder and inorder traversal of a tree, construct the binary tree.Note:You may assume that duplicates do not exist in the tree.之前做过相同的题目也写过分析,所以就直接贴答案了。/** * Definition for b原创 2014-01-15 06:18:16 · 1156 阅读 · 0 评论