--5数据挖掘
文章平均质量分 69
-爱拼才会赢-
只想把一件事做透
展开
-
线性回归
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。大概就是,做一个房屋价值的评估系统,一个房屋的价值来自很多地方,比原创 2013-05-29 10:41:58 · 953 阅读 · 0 评论 -
IBM SPSS Modeler 和spss statistics有什么不同
Modeler是数据挖掘statistics是统计分析两者的区别 表面的直接区别是在处理数据的量上有区别,statistics的处理数据量有限,而modeler处理数据的量可以是海量,也就是现在吵得沸沸腾腾的大数据本质的一些区别是功能上的,modeler包括有统计分析的部分,也有机器学习和人工智能的部分而statistics主要就是统计分析,是以统计学的理论为主的modeler更侧重挖转载 2014-02-13 08:53:10 · 10177 阅读 · 0 评论 -
数据质量检查【整理】
根据检查规则,满足数据分析的要求~原创 2014-02-20 19:27:24 · 5647 阅读 · 0 评论 -
业务挖掘
业务挖掘站在宏观的角度进行挖掘,需要非常的了解业务。 业务挖掘考虑到各种业务之间的关联性,主要是提高生产率【社会前步的标志】、更加方便,产生更大的价值。 例如,深度的挖掘客户需求1、客户要买产品A, 假如他是第一次打开网站,则首先根据他的一些基本信息{地理位置【北京一环内与五环外客户差异】、时间【上下班班时间,早中晚等等】、打开的终端设备【用P4的电脑的人和用IPHONE5的人原创 2013-07-14 22:36:20 · 1031 阅读 · 0 评论 -
海量数据处理{宏观条件分析}
1. 海量数据处理分析 (作者 北京迈思奇科技有限公司 戴子良) 原文地址:http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。【数据预处理】如果说有10条数据原创 2013-06-27 09:05:13 · 1122 阅读 · 0 评论 -
CBIP(商务智能专家)Certified Business Intelligence Professional
商务智能专家(CBIP),一种大数据分析和数据存储技能认证资质,从业人员平均工资 109,943 美元。 tdwi: 1. 数据仓库研究院 2. 研究所 3. 数据仓库学院 4. 数据仓库协会 http://tdwi.org/microsites/australia-international-site/cbip-certification/cbip-hom原创 2013-07-11 10:29:04 · 8036 阅读 · 1 评论 -
数据挖掘 工作
数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。 并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因原创 2013-07-07 14:09:26 · 900 阅读 · 0 评论 -
个性化推荐系统
个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站原创 2013-07-07 19:54:00 · 3804 阅读 · 0 评论 -
概念学习(Concept learning)
概念学习就是学习把具有共同属性的事物集合在一起并冠以一个名称,把不具有此类属性的事物排除出去。影响概念学习的因素主要有:概念的定义性特征;原型;讲授概念的方式;概念间的联系以及学生在年龄、性别、智力、动机、情绪、经验、民族、语言能力以及使用学习策略上的个体差异等自身的因素。概念学习的过程 概念学习的过程包括概念的获得和概念的运用两个环节:获得概念有两种形式,即概念的形成原创 2013-07-07 19:21:35 · 2630 阅读 · 0 评论 -
文本挖掘过程及案例
一个文本挖掘过程及案例 [Nirvana 发表于 2007-4-23 23:34:00]一、文本挖掘概念 在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨,文本挖掘已经成为信息领域的研究热点。原创 2013-05-30 13:45:04 · 9542 阅读 · 0 评论 -
市场购物篮分析
购物篮分析最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。 购物篮分析基本运作过程包含下列三点 (1原创 2013-05-30 10:00:27 · 3737 阅读 · 0 评论 -
试验设计[实验设计]
试验设计(design Of experiment,简称DOE),也称为实验设计。试验设计是以概率论和数理统计为理论基础,经济地、科学地安排试验的一项技术。试验设计自20世纪20年代问世至今,其发展大致经历了三个阶段:即早期的单因素和多因素方差分析,传统的正交试验法和近代的调优设计法。 内容产品质量的高低主要是由设计决定的,一个好的试验设计包含几个方面的内容。第一是明确衡量产品质量原创 2013-05-30 09:09:24 · 3402 阅读 · 0 评论 -
文本挖掘
什么是文本挖掘 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理原创 2013-05-30 10:43:52 · 3461 阅读 · 0 评论 -
逻辑回归
“逻辑回归” 和 "线性回归" 的关系 都可以做预测,但它们之间不存在包含关系。逻辑回归用在二值预测,比如预测一个客户是否会流失,只有0-不流失,1-流失;线性回归用来进行连续值预测,比如预测投入一定的营销费用时会带来多少收益。 只看公式太痛苦了,分开说一下就好。Logistic Regression 有三个主要组成部分:回归、线性回归、Logsitic方程。 1)原创 2013-05-29 14:52:52 · 2399 阅读 · 0 评论 -
企业级数据挖掘平台EDM-CRISP-DM
。。。。待写。。。。原创 2014-04-12 22:57:18 · 1287 阅读 · 0 评论