自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DM&NLP

记录数据挖掘、自然语言处理学习的点点滴滴

  • 博客(12)
  • 收藏
  • 关注

转载 Matrix Factorization: A Simple Tutorial and Implementation in Python

Matrix Factorization: A Simple Tutorial and Implementation in PythonThere is probably no need to say that there is too much information on the Web nowadays. Search engines help us a little b

2015-03-13 10:05:01 1229

转载 Logistic回归原理与思想的一些探讨

Logistic回归在二分类问题上被广泛地应用,因为其在多数的问题上,比线性回归优异得多。下面是以最简单的二分类因变量为例来加以探讨(当然,逻辑回归还可以应用于多分类的情况下),常定义出现阳性结果时反应时反应变量取值为1,反之则取值为0。例如当对网络用户进行营销的时候,结果是:营销成功,用户购买,则反应变量为1,否则用户没有购买,因此反应变量为0。记出现阳性结果的频率为P(y=1)。很显然,0

2014-10-30 11:52:12 1350

转载 AUC的解释

预测    10 实1d, True Positivec, False Negativec+d, Actual Positive际0b, False Positivea, True Negativea+b, Actual Negative

2014-10-20 12:45:20 2570

转载 NMF算法简介及python实现

基本原理NMF,非负矩阵分解,它的目标很明确,就是将大矩阵分解成两个小矩阵,使得这两个小矩阵相乘后能够还原到大矩阵。而非负表示分解的矩阵都不包含负值。 从应用的角度来说,矩阵分解能够用于发现两种实体间的潜在特征,一个最常见的应用就是协同过滤中的预测打分值,而从协同过滤的这个角度来说,非负也很容易理解:打分都是正的,不会出现负值。在例如Netflix或MovieLens这样的推荐系统

2014-02-08 16:27:25 13375 1

原创 分类技术简介

“大数据”、“海量数据分析”、“数据挖掘”等已经成为近两年超级流行的词汇:2012年初《纽约时报》刊载《大数据时代降临》,2012达沃斯世界经济论坛讨论“海量数据分析”和“机器学习”将会是未来最大的技术革命之一等等。海量数据中蕴含着丰富的信息,从中挖掘出的“宝藏”将有助于人们做出科学的决策。分类分析作为数据挖掘实际应用中最常用的一种方法,就是判断目标对象属于哪个预先定义好的类。例如:社交管理营销公

2013-05-05 20:00:25 2421

转载 union 与 union all 的区别

SQL UNION 操作符UNION 操作符用于合并两个或多个 SELECT 语句的结果集。请注意,UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时,每条 SELECT 语句中的列的顺序必须相同。SQL UNION 语法SELECT column_name(s) FROM table_name1UNIONSELECT column_n

2013-02-04 11:28:20 667

原创 卡方检验值转换为P值

卡方检验作为一种常见的假设检验,在统计学中的地位是显而易见的,如果你还不太清楚可以参看这篇博文:卡方检验用于特征选择,写的非常的浅显易懂,如果你还想再扩展点卡方检验方面的知识,可以参看这篇博文卡方检验基础,写的也很有意思。前辈的功底都很深厚,小弟就就不再阐述卡方检验的原理、意义及如何计算了,理解了其实很简单就那么个公式,再根据实际业务场景关键看你选择哪一个。从chi-squared value

2013-02-02 13:10:17 59832

转载 卡方检验用于特征选择

前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。  大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在

2013-02-02 12:35:38 33078 6

转载 卡方检验基础

x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。    一、四格表资料的x2检验    例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较

2013-02-02 12:22:49 11002

转载 hive 调优

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时

2012-10-31 17:18:40 3459

转载 SQL中的join的详细用法!inner join,full outer join,left join,right jion

-查询分析器中执行:--建表table1,table2:create table table1(id int,name varchar(10))create table table2(id int,score int)insert into table1 select 1,'lee'insert into table1 select 2,'zhang'insert into

2012-07-20 11:30:46 760

转载 Pange Rank 和它的数学模型

昨天在Google黑板报上读到了一篇介绍Page Rank的文章,最让我感兴趣的是它的数学模型。Google 的创始人之一拉里•佩奇在谈到怎么想到网页排名算法时说:“当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。”事实上,“Google 的两个创始人拉里•佩

2012-07-19 10:48:57 1010

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除