idatamining-CSDN博客

转载 Matrix Factorization: A Simple Tutorial and Implementation in Python

Matrix Factorization: A Simple Tutorial and Implementation in PythonThere is probably no need to say that there is too much information on the Web nowadays. Search engines help us a little b

2015-03-13 10:05:01 1309

转载 Logistic回归原理与思想的一些探讨

Logistic回归在二分类问题上被广泛地应用，因为其在多数的问题上，比线性回归优异得多。下面是以最简单的二分类因变量为例来加以探讨（当然，逻辑回归还可以应用于多分类的情况下），常定义出现阳性结果时反应时反应变量取值为1，反之则取值为0。例如当对网络用户进行营销的时候，结果是：营销成功，用户购买，则反应变量为1，否则用户没有购买，因此反应变量为0。记出现阳性结果的频率为P(y=1)。很显然，0

2014-10-30 11:52:12 1443

转载 AUC的解释

预测 10 实1d, True Positivec, False Negativec+d, Actual Positive际0b, False Positivea, True Negativea+b, Actual Negative

2014-10-20 12:45:20 2672

转载 NMF算法简介及python实现

基本原理NMF，非负矩阵分解，它的目标很明确，就是将大矩阵分解成两个小矩阵，使得这两个小矩阵相乘后能够还原到大矩阵。而非负表示分解的矩阵都不包含负值。从应用的角度来说，矩阵分解能够用于发现两种实体间的潜在特征，一个最常见的应用就是协同过滤中的预测打分值，而从协同过滤的这个角度来说，非负也很容易理解：打分都是正的，不会出现负值。在例如Netflix或MovieLens这样的推荐系统

2014-02-08 16:27:25 13609 1

“大数据”、“海量数据分析”、“数据挖掘”等已经成为近两年超级流行的词汇：2012年初《纽约时报》刊载《大数据时代降临》，2012达沃斯世界经济论坛讨论“海量数据分析”和“机器学习”将会是未来最大的技术革命之一等等。海量数据中蕴含着丰富的信息，从中挖掘出的“宝藏”将有助于人们做出科学的决策。分类分析作为数据挖掘实际应用中最常用的一种方法，就是判断目标对象属于哪个预先定义好的类。例如：社交管理营销公

2013-05-05 20:00:25 2534

转载 union 与 union all 的区别

SQL UNION 操作符UNION 操作符用于合并两个或多个 SELECT 语句的结果集。请注意，UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时，每条 SELECT 语句中的列的顺序必须相同。SQL UNION 语法SELECT column_name(s) FROM table_name1UNIONSELECT column_n

2013-02-04 11:28:20 718

原创卡方检验值转换为P值

卡方检验作为一种常见的假设检验，在统计学中的地位是显而易见的，如果你还不太清楚可以参看这篇博文:卡方检验用于特征选择，写的非常的浅显易懂，如果你还想再扩展点卡方检验方面的知识，可以参看这篇博文卡方检验基础，写的也很有意思。前辈的功底都很深厚，小弟就就不再阐述卡方检验的原理、意义及如何计算了，理解了其实很简单就那么个公式，再根据实际业务场景关键看你选择哪一个。从chi-squared value

2013-02-02 13:10:17 60404

转载卡方检验用于特征选择

前文提到过，除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。　　大家应该还记得，开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。（什么？你是文史类专业的学生，没有学过数理统计？那你做什么文本分类？在

2013-02-02 12:35:38 33280 2

转载卡方检验基础

x2检验（chi-square test）或称卡方检验，是一种用途较广的假设检验方法。可以分为成组比较（不配对资料）和个别比较（配对，或同一对象两种处理的比较）两类。一、四格表资料的x2检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者，结果如表20-11，问两种疗法有无差别？表20-11 两种疗法治疗卵巢癌的疗效比较

2013-02-02 12:22:49 12202

转载 hive 调优

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时

2012-10-31 17:18:40 3524

转载 SQL中的join的详细用法！inner join,full outer join,left join,right jion

-查询分析器中执行：--建表table1,table2：create table table1(id int,name varchar(10))create table table2(id int,score int)insert into table1 select 1,'lee'insert into table1 select 2,'zhang'insert into

2012-07-20 11:30:46 805

转载 Pange Rank 和它的数学模型

昨天在Google黑板报上读到了一篇介绍Page Rank的文章，最让我感兴趣的是它的数学模型。Google 的创始人之一拉里•佩奇在谈到怎么想到网页排名算法时说：“当时我们觉得整个互联网就像一张大的图（Graph），每个网站就像一个节点，而每个网页的链接就像一个弧。我想，互联网可以用一个图或者矩阵描述，我也许可以用这个发现做个博士论文。”事实上，“Google 的两个创始人拉里•佩

2012-07-19 10:48:57 1046