自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Devin Jiang的博客

谦谦君子,虚怀若谷

  • 博客(15)
  • 收藏
  • 关注

原创 用知识图谱优化个性化推荐模型

最近的项目需要是,为了增加用户与商品之间的粘性,准备使用用户和商品的网络表示学习来补充商品的召回策略。微软研究院发表的一篇《如何将知识图谱特征学习应用到推荐系统?》还是写的比较好的,今天准备研究最近发表的RippleNet: Propagating User Preferences on Knowledge Graph for Recommender Systems,后续会把调研的一些paper...

2018-12-04 10:13:39 2025

原创 概率密度估计

参数估计和非参数估计(监督参数估计和非监督参数估计)组成了概率密度估计。参数估计分频率派的最大似然估计和概率派的贝叶斯估计,MLE基本就是写出似然函数—取log—求最大似然函数时的参数,如果似然函数不可导或很难求导,就应用用EM算法的迭代计算的思想估参;贝叶斯估计理解朴素贝叶斯公式就可以了。非参数估计分三种,直方图、Parzen窗法(核密度估计)和Kn近邻法 直方图很好理解,核密度估计在直方图的基

2017-06-20 17:04:09 1205

原创 用bias/variance角度解释GDBT与RF的区别

首先,GBDT和RF都是集成方法中的经典模型,我们需要弄清楚下面几个问题: 1、GBDT是采用boosing方法,RF采用的是baggging方法 2、bias和variance是解释模型泛化性能的,其实还有噪声然后,理解GBDT和RF执行原理,其中GBDT中的核心是通过用分类器(如CART、RF)拟合损失函数梯度,而损失函数的定义就决定了在子区域内各个步长,其中就是期望输出与分类器预测输出的查

2017-06-20 16:31:03 1551

原创 实战from GBDT to Xgboost

这一系列主要是对DT、RF的简单介绍,以及对GBDT源码(Python)分析,然后成功搭建Xgboost工具,最后通过简单demo实例熟悉Xgboost建模过程。1.Decision Tree     决策树从一根节点出发,通过找到最优的分割点,不断地将样本集分裂生成子节点,直到满足停止条件为止(或直到每个节点足够“纯”为止)。 如何选择最优划分属性方法:信息增益(ID3)、信息率(C4.5)

2017-06-16 22:00:02 1306

原创 Python快速开发入门重点笔记

&nbsp为了做机器学习项目,从零开始学习Python,本文重在新手快速入门,其中首选python科学计算环境——Anaconda,机器学习项目之前一般有3-4天快速学习新的语言时间,然后从项目中边做边学。下面是我结合结合结合一些Python入门相关书籍和资料做的笔记,希望对于新手有帮助。Anoconda环境安装下载地址:http://continuum.io/downloads 安装非常简单,

2017-06-14 20:42:57 615

原创 2017年腾讯基础研究笔试感受

刚刚完成了腾讯的2017年腾讯基础研究笔试题,谈一下感受。                      考题分为选择题(26/60分钟)和简答题(3/60分钟),选择题很基础,尽管我基本上不会,但如果按照考研的那个水平,那是完全不用担心的,不知道以前的高数都还给谁了,内容很基础吗,其中涉及到:                     选择题:                     1)

2017-04-02 21:01:28 3911

转载 Hive JSON数据处理的一点探索

背景 JSON是一种轻量级的数据格式,结构灵活,支持嵌套,非常易于人的阅读和编写,而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互,因此大量的系统使用JSON作为日志存储格式。 使用Hive分析数据(均指文本)之前,首先需要为待分析的数据建立一张数据表,然后才可以使用Hive SQL分析这张数据表的数据。这就涉及到我们如何把一行文本数据映射为数据表的列,常规的方式有两种: (1

2017-03-26 10:52:36 1423

原创 数据挖掘工程师大厂是最佳选择吗?

答案是All No!!!                     好的team比好的厂要好得多得多!!!                     目前,我在一家大厂实习已经有快5个月了,从数据开发岗转到算法工程师岗已快1个月,现在每天遇到最多的问题就是数据预处理和特征提取,建模的过程其实是很少的,模型的优化过程那基本上没有接触,或许我是一个实习生的原因吧,很期待,每天很充实,感触最深的就是

2017-03-23 21:30:00 843

转载 NLP︱LDA主题模型的应用难题

NLP︱LDA主题模型的应用难题 将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样本。PCA主要将的是主成分-变量之间的关系,在文本中LDA也有同样的效果,将一撮词(变量)变成话题(主成分),同时通过画像主成分,可以知道人群喜欢什么样子

2017-03-23 21:13:15 4619 2

转载 欢迎使用CSDN-markdown编辑器

http://blog.csdn.net/pipisorry/article/details/51373090吉布斯采样算法详解为什么要用吉布斯采样通俗解释一下什么是sampling。sampling就是以一定的概率分布,看发生什么事件。举一个例子。甲只能E:吃饭、学习、打球,时间T:上午、下午、晚上,天气W:晴朗、刮风、下雨。现在要一个sample,这个sample可以是:打球+下午+晴朗。。。问

2017-02-17 13:18:18 604

原创 坚持自己内心的选择——”数据分析”

坚持自己内心的选择——”数据分析”

2017-02-12 21:26:49 951 2

转载 使用 Kafka 和 Spark Streaming 构建实时数据处理系统

使用 Kafka 和 Spark Streaming 构建实时数据处理系统 来源:https://www.ibm.com/developerworks,这篇文章转载自微信里文章,正好解决了我项目中的技术问题,非常感谢。引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要

2016-10-31 14:33:31 4726

原创 大数据分析/挖掘求职——踏出校门的第一步

一个非常渴望进入数据分析/挖掘圈子的研二学习,在北京一个星期的大数据实习经历,希望能与即将出社会的同学一起共勉之。

2016-10-31 12:12:11 1262

原创 HMM预测算法——Viterbi算法

**HMM预测算法——Viterbi算法** HMM是一个生成模型,表示状态序列和观测序列的联合分布,但是状态序是隐藏的,不可观测的。 Viterbi算法实际上用动态规划(dynamic programming)求HMM预测问题,用DP求概率最大路径,即寻找满足观测序列意义上最优隐含的状态序列。 (一)Viterbi算法可以分为两步: 第一步:从t=1开始,依次找到t=(1,2,,,T)时

2016-09-18 08:39:00 6020 1

原创 58集团2017校招(第一次正规的笔试)

初入职场,这次58集团笔试让自己心态有很大的转变,感谢学姐给我这次内推的机会,也很感谢58。一直相信这句话:自信取决你踩过多少坑,自信来源于你对一件事认真重复了多少遍,共勉之。

2016-09-14 09:54:24 7308 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除