追梦不止,静心致远-CSDN博客

原创用知识图谱优化个性化推荐模型

最近的项目需要是，为了增加用户与商品之间的粘性，准备使用用户和商品的网络表示学习来补充商品的召回策略。微软研究院发表的一篇《如何将知识图谱特征学习应用到推荐系统？》还是写的比较好的，今天准备研究最近发表的RippleNet: Propagating User Preferences on Knowledge Graph for Recommender Systems，后续会把调研的一些paper...

2018-12-04 10:13:39 2199

原创概率密度估计

参数估计和非参数估计（监督参数估计和非监督参数估计）组成了概率密度估计。参数估计分频率派的最大似然估计和概率派的贝叶斯估计，MLE基本就是写出似然函数—取log—求最大似然函数时的参数，如果似然函数不可导或很难求导，就应用用EM算法的迭代计算的思想估参；贝叶斯估计理解朴素贝叶斯公式就可以了。非参数估计分三种，直方图、Parzen窗法（核密度估计）和Kn近邻法直方图很好理解，核密度估计在直方图的基

2017-06-20 17:04:09 1272

原创用bias/variance角度解释GDBT与RF的区别

首先，GBDT和RF都是集成方法中的经典模型，我们需要弄清楚下面几个问题： 1、GBDT是采用boosing方法，RF采用的是baggging方法 2、bias和variance是解释模型泛化性能的，其实还有噪声然后，理解GBDT和RF执行原理，其中GBDT中的核心是通过用分类器（如CART、RF）拟合损失函数梯度，而损失函数的定义就决定了在子区域内各个步长，其中就是期望输出与分类器预测输出的查

2017-06-20 16:31:03 1642

原创实战from GBDT to Xgboost

这一系列主要是对DT、RF的简单介绍，以及对GBDT源码（Python）分析，然后成功搭建Xgboost工具，最后通过简单demo实例熟悉Xgboost建模过程。1．Decision Tree 决策树从一根节点出发，通过找到最优的分割点，不断地将样本集分裂生成子节点，直到满足停止条件为止（或直到每个节点足够“纯”为止）。如何选择最优划分属性方法：信息增益（ID3）、信息率（C4.5）

2017-06-16 22:00:02 1355

原创 Python快速开发入门重点笔记

&nbsp为了做机器学习项目，从零开始学习Python，本文重在新手快速入门，其中首选python科学计算环境——Anaconda，机器学习项目之前一般有3-4天快速学习新的语言时间，然后从项目中边做边学。下面是我结合结合结合一些Python入门相关书籍和资料做的笔记，希望对于新手有帮助。Anoconda环境安装下载地址：http://continuum.io/downloads 安装非常简单，

2017-06-14 20:42:57 653

原创 2017年腾讯基础研究笔试感受

刚刚完成了腾讯的2017年腾讯基础研究笔试题，谈一下感受。考题分为选择题（26/60分钟）和简答题（3/60分钟），选择题很基础，尽管我基本上不会，但如果按照考研的那个水平，那是完全不用担心的，不知道以前的高数都还给谁了，内容很基础吗，其中涉及到：选择题： 1）

2017-04-02 21:01:28 3951

转载 Hive JSON数据处理的一点探索

背景 JSON是一种轻量级的数据格式，结构灵活，支持嵌套，非常易于人的阅读和编写，而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互，因此大量的系统使用JSON作为日志存储格式。使用Hive分析数据（均指文本）之前，首先需要为待分析的数据建立一张数据表，然后才可以使用Hive SQL分析这张数据表的数据。这就涉及到我们如何把一行文本数据映射为数据表的列，常规的方式有两种：（1

2017-03-26 10:52:36 1463

原创数据挖掘工程师大厂是最佳选择吗？

答案是All No！！！好的team比好的厂要好得多得多！！！目前，我在一家大厂实习已经有快5个月了，从数据开发岗转到算法工程师岗已快1个月，现在每天遇到最多的问题就是数据预处理和特征提取，建模的过程其实是很少的，模型的优化过程那基本上没有接触，或许我是一个实习生的原因吧，很期待，每天很充实，感触最深的就是

2017-03-23 21:30:00 881

转载 NLP︱LDA主题模型的应用难题

NLP︱LDA主题模型的应用难题将LDA跟多元统计分析结合起来看，那么LDA中的主题就像词主成分，其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量，Q型聚类针对样本。PCA主要将的是主成分-变量之间的关系，在文本中LDA也有同样的效果，将一撮词（变量）变成话题（主成分），同时通过画像主成分，可以知道人群喜欢什么样子

2017-03-23 21:13:15 4971 2

转载欢迎使用CSDN-markdown编辑器

http://blog.csdn.net/pipisorry/article/details/51373090吉布斯采样算法详解为什么要用吉布斯采样通俗解释一下什么是sampling。sampling就是以一定的概率分布，看发生什么事件。举一个例子。甲只能E：吃饭、学习、打球，时间T：上午、下午、晚上，天气W：晴朗、刮风、下雨。现在要一个sample，这个sample可以是：打球+下午+晴朗。。。问

2017-02-17 13:18:18 651

原创坚持自己内心的选择——”数据分析”

坚持自己内心的选择——”数据分析”

2017-02-12 21:26:49 1001

转载使用 Kafka 和 Spark Streaming 构建实时数据处理系统

使用 Kafka 和 Spark Streaming 构建实时数据处理系统来源：https://www.ibm.com/developerworks，这篇文章转载自微信里文章，正好解决了我项目中的技术问题，非常感谢。引言在很多领域，如股市走向分析, 气象数据测控，网站用户行为分析等，由于数据产生快，实时性强，数据量大，所以很难统一采集并入库存储后再做处理，这便导致传统的数据处理架构不能满足需要

2016-10-31 14:33:31 4778

原创大数据分析/挖掘求职——踏出校门的第一步

一个非常渴望进入数据分析/挖掘圈子的研二学习，在北京一个星期的大数据实习经历，希望能与即将出社会的同学一起共勉之。

2016-10-31 12:12:11 1359

原创 HMM预测算法——Viterbi算法

**HMM预测算法——Viterbi算法** HMM是一个生成模型，表示状态序列和观测序列的联合分布，但是状态序是隐藏的，不可观测的。 Viterbi算法实际上用动态规划（dynamic programming）求HMM预测问题，用DP求概率最大路径，即寻找满足观测序列意义上最优隐含的状态序列。（一）Viterbi算法可以分为两步：第一步：从t=1开始，依次找到t=(1,2,,,T）时

2016-09-18 08:39:00 6207