数据挖掘
文章平均质量分 73
大村chen
(1)深入了解 推荐系统、搜索引擎、检索系统, 了解分布式数据库、数据库优化 (2) 对产品有深刻认识, 涉及大数据应用有实战经验 (3)熟悉 Python、shell, 掌握CSS等各类前端语言, 了解 C、Java、R (4) 熟悉 Lucene、Scrapy,了解 Hadoop Yarn、NoSQL类分布式数据库
展开
-
NMF.非负矩阵分解(Non-negative.Matrix.Factorization)实践
1. NMF-based 推荐算法在例如Netflix或MovieLens这样的推荐系统中,有用户和电影两个集合。给出每个用户对部分电影的打分,希望预测该用户对其他没看过电影的打分值,这样可以根据打分值为其做出推荐。用户和电影的关系,可以用一个矩阵来表示,每一列表示用户,每一行表示电影,每个元素的值表示用户对已经看过的电影的打分。下面来简单介绍一下基于NMF的推荐算法。在python当中有一个包叫做原创 2016-07-15 17:27:06 · 4806 阅读 · 1 评论 -
NMF.非负矩阵分解.--.原理与应用
1.原理发现写关于非负矩阵的博文还是蛮多的,还是以自己的角度总结一下自己的最近看的若干东西以及对非负矩阵分解有用的一些资料链接。NMF,全称为non-negative matrix factorization,中文呢为“非负矩阵分解”。NMF的思想:V=WH(W权重矩阵、H特征矩阵、V原矩阵),通过计算从原矩阵提取权重和特征两个不同的矩阵出来。属于一个无监督学习的算法,其中限制条件就是W和H中的所有原创 2016-07-15 17:28:02 · 5904 阅读 · 3 评论 -
Hadoop2初介绍与OSX安装Hadoop2
hadoop2初介绍在之前公司工作的时候,小组长曾经抱怨过hadoop升级后不向下兼容等系列问题,使用不同的版本总是很纠结,版本分裂各种问题。后来自己找工作的途中,发现很多公司都在用hadoop搭建自己的数据中心,特别是去汇丰面试、其他几个公司面试,都很关心集群大数据问题。之前在腾讯实习的时候重点研究过hadoop1.0版本,隔了很久,开始补习一下hadoop。为什么会有hadoop2的出现?可以看原创 2016-07-15 17:28:57 · 805 阅读 · 0 评论 -
3问数据挖掘:预测模型应该如何验证
Q3. How to validate a model you created to generate a predictive model of a quantitative outcome variable using multiple regression.Q3. 对于一个采用多元回归的定量结果,其预测模型应该如何验证答案:如果模型的预测值远远超出响应的变量范围,这表明要么估计效果很差,要不原创 2016-07-15 17:35:17 · 6982 阅读 · 0 评论 -
4问数据挖掘:什么是准确率和召回率
Q4. Explain what precision and recall are. How do they relate to the ROC curve.Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.答案:准确度P 召回率R准确率:你的预测有多少是对的召回率:正例里你的预测覆盖了多少看懂这个表走天下:ROC曲线(Receiver Operating Characteristi原创 2016-07-15 17:31:37 · 2424 阅读 · 0 评论 -
5问数据挖掘:怎么证明一个算法被你优化过
Q5. How can you prove that one improvement you’ve brought to an algorithm is really an improvement over not doing anything?Q5. 怎么证明一个算法被你优化过?通常这里我们会分成两种,一种是离线(off-line),一种是在线(on-line)的测试方法。在线的测试方法最最最最常原创 2016-07-15 17:38:57 · 1023 阅读 · 0 评论 -
6问数据挖掘:什么是根本原因分析
What is root cause analysis?什么是根本原因分析?又到了考概念的时间啦,RCA根本原因分析,这道题目估计只有在考试的时候会出现哈。不过这个方法确实很奏效,我最近在做大数据研究一个通用算法的时候就是通过RCA方法解决的。下面是一个wiki的定义根本原因分析: 根本原因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征原创 2016-07-15 17:40:32 · 1622 阅读 · 0 评论 -
最小二乘法多项式曲线拟合
多项式曲线(Polynomial curve fitting)拟合最小二乘法,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线 y=f(x)y=f(x) 的近似曲线 y=φ(x)y= φ(x)。看图说话:原理给定数据点pi(xi,yi),其中i=1,2,…,m。求近似曲线y= φ(x)。并且使得近似曲线与y=f(x)的偏差最小。近似曲线在点pi处的偏差δi= φ(xi)原创 2016-09-09 19:55:40 · 3665 阅读 · 0 评论 -
DeepLearning - CNN(1) - 卷积神经网络物理意义
卷积神经网络CNN的核心思想是:局部感知(local field),权值共享(Shared Weights)以及时间或空间亚采样(subsampling)这三种思想结合起来,获得了某种程度的位移、尺度、形变不变性。<font color=red>**多层网络可以根据其输入引出高阶统计特性**, 即使网络为局部连接,由于格外的突触连接和额外的神经交互作用,也可以使网络在不十分严格的意义下获得一个全局关系。</f原创 2016-10-17 15:49:50 · 2137 阅读 · 0 评论