数据挖掘
j3smile
专注于分布式计算、数据挖掘。坚韧平和,不浮躁。
展开
-
R 朴素贝叶斯 垃圾邮件分类
问题1:直接计算先验概率的话,连乘导致数据溢出。不能比较大小。解决:转乘为加原创 2013-10-24 18:36:37 · 1235 阅读 · 0 评论 -
关于什么是数据分析
今天和老大交流,有种听君一席话,胜读10年书的感觉首先是数据处理的流程:数据抽取ETL->数据仓库DW->在线分析处理OLAP->前端展示数据分析和挖掘最重要的不是技术,而是你能不能正常的定义问题。用olap的方式理解数据处理的流程给你一个问题,用你的思路去解决:数据都是可以用维度和度量来定义的。原创 2013-10-31 22:54:58 · 839 阅读 · 0 评论 -
各种工具
BIRT: 初识BIRT是一个Eclipse-based开放源代码报表系统,英文全称是Business Intelligence and Reporting Tools,商业智能和报表工具。pentaho:是世界上最流行的开源商务只能软件。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个 web serve原创 2013-11-01 17:28:12 · 734 阅读 · 0 评论 -
etl olap
得到ETL的定义: 将数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)MDX是一种和SQL类似的语言,它也可以用于查询、计算和定义一些元数据。只不过SQL是基于OLTP的,而MDX是基于OLAP的,也就是说,MDX是对多维数据进行查询的。和其它的OLAP语言不同,MDX并不完全是一种报告形式语言。但用MDX查询出来的结果仍然可以在客原创 2013-11-01 18:13:55 · 884 阅读 · 0 评论 -
模型指标
1 可信度2 准确率3 提升度4 覆盖率5 查全率原创 2013-11-05 17:09:44 · 885 阅读 · 0 评论 -
logistic回归学习
logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法可解决的问题: 因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。因变量的类型:可为连续变量、等级变量、分类变量。适用性两元因变量的logistic回归模型方程讲解一个自变量与Y原创 2013-12-30 16:11:54 · 1524 阅读 · 0 评论