idatamining
码龄13年
关注
提问 私信
  • 博客:136,731
    136,731
    总访问量
  • 2
    原创
  • 842,237
    排名
  • 37
    粉丝
  • 0
    铁粉

个人简介:机器学习那些事儿

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2012-06-09
博客简介:

DM&NLP

博客描述:
记录数据挖掘、自然语言处理学习的点点滴滴
查看详细资料
个人成就
  • 获得26次点赞
  • 内容获得7次评论
  • 获得75次收藏
创作历程
  • 1篇
    2015年
  • 3篇
    2014年
  • 5篇
    2013年
  • 3篇
    2012年
TA的专栏
  • 机器学习
    6篇
  • 数据挖掘
    4篇
  • 自然语言处理
    2篇
  • 个性化推荐
    1篇
  • 数据库
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Matrix Factorization: A Simple Tutorial and Implementation in Python

Matrix Factorization: A Simple Tutorial and Implementation in PythonThere is probably no need to say that there is too much information on the Web nowadays. Search engines help us a little b
转载
发布博客 2015.03.13 ·
1270 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Logistic回归原理与思想的一些探讨

Logistic回归在二分类问题上被广泛地应用,因为其在多数的问题上,比线性回归优异得多。下面是以最简单的二分类因变量为例来加以探讨(当然,逻辑回归还可以应用于多分类的情况下),常定义出现阳性结果时反应时反应变量取值为1,反之则取值为0。例如当对网络用户进行营销的时候,结果是:营销成功,用户购买,则反应变量为1,否则用户没有购买,因此反应变量为0。记出现阳性结果的频率为P(y=1)。很显然,0
转载
发布博客 2014.10.30 ·
1417 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

AUC的解释

预测    10 实1d, True Positivec, False Negativec+d, Actual Positive际0b, False Positivea, True Negativea+b, Actual Negative
转载
发布博客 2014.10.20 ·
2640 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

NMF算法简介及python实现

基本原理NMF,非负矩阵分解,它的目标很明确,就是将大矩阵分解成两个小矩阵,使得这两个小矩阵相乘后能够还原到大矩阵。而非负表示分解的矩阵都不包含负值。 从应用的角度来说,矩阵分解能够用于发现两种实体间的潜在特征,一个最常见的应用就是协同过滤中的预测打分值,而从协同过滤的这个角度来说,非负也很容易理解:打分都是正的,不会出现负值。在例如Netflix或MovieLens这样的推荐系统
转载
发布博客 2014.02.08 ·
13507 阅读 ·
6 点赞 ·
1 评论 ·
35 收藏

分类技术简介

“大数据”、“海量数据分析”、“数据挖掘”等已经成为近两年超级流行的词汇:2012年初《纽约时报》刊载《大数据时代降临》,2012达沃斯世界经济论坛讨论“海量数据分析”和“机器学习”将会是未来最大的技术革命之一等等。海量数据中蕴含着丰富的信息,从中挖掘出的“宝藏”将有助于人们做出科学的决策。分类分析作为数据挖掘实际应用中最常用的一种方法,就是判断目标对象属于哪个预先定义好的类。例如:社交管理营销公
原创
发布博客 2013.05.05 ·
2476 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

union 与 union all 的区别

SQL UNION 操作符UNION 操作符用于合并两个或多个 SELECT 语句的结果集。请注意,UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时,每条 SELECT 语句中的列的顺序必须相同。SQL UNION 语法SELECT column_name(s) FROM table_name1UNIONSELECT column_n
转载
发布博客 2013.02.04 ·
694 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

卡方检验值转换为P值

卡方检验作为一种常见的假设检验,在统计学中的地位是显而易见的,如果你还不太清楚可以参看这篇博文:卡方检验用于特征选择,写的非常的浅显易懂,如果你还想再扩展点卡方检验方面的知识,可以参看这篇博文卡方检验基础,写的也很有意思。前辈的功底都很深厚,小弟就就不再阐述卡方检验的原理、意义及如何计算了,理解了其实很简单就那么个公式,再根据实际业务场景关键看你选择哪一个。从chi-squared value
原创
发布博客 2013.02.02 ·
60232 阅读 ·
6 点赞 ·
0 评论 ·
18 收藏

卡方检验用于特征选择

前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。  大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在
转载
发布博客 2013.02.02 ·
33218 阅读 ·
8 点赞 ·
6 评论 ·
39 收藏

卡方检验基础

x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。    一、四格表资料的x2检验    例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较
转载
发布博客 2013.02.02 ·
11871 阅读 ·
2 点赞 ·
0 评论 ·
14 收藏

hive 调优

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时
转载
发布博客 2012.10.31 ·
3500 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

SQL中的join的详细用法!inner join,full outer join,left join,right jion

-查询分析器中执行:--建表table1,table2:create table table1(id int,name varchar(10))create table table2(id int,score int)insert into table1 select 1,'lee'insert into table1 select 2,'zhang'insert into
转载
发布博客 2012.07.20 ·
795 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Pange Rank 和它的数学模型

昨天在Google黑板报上读到了一篇介绍Page Rank的文章,最让我感兴趣的是它的数学模型。Google 的创始人之一拉里•佩奇在谈到怎么想到网页排名算法时说:“当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。”事实上,“Google 的两个创始人拉里•佩
转载
发布博客 2012.07.19 ·
1030 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏