![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
追梦不止,静心致远
谦谦君子,虚怀若谷
展开
-
Python快速开发入门重点笔记
 为了做机器学习项目,从零开始学习Python,本文重在新手快速入门,其中首选python科学计算环境——Anaconda,机器学习项目之前一般有3-4天快速学习新的语言时间,然后从项目中边做边学。下面是我结合结合结合一些Python入门相关书籍和资料做的笔记,希望对于新手有帮助。Anoconda环境安装下载地址:http://continuum.io/downloads 安装非常简单,原创 2017-06-14 20:42:57 · 582 阅读 · 0 评论 -
概率密度估计
参数估计和非参数估计(监督参数估计和非监督参数估计)组成了概率密度估计。参数估计分频率派的最大似然估计和概率派的贝叶斯估计,MLE基本就是写出似然函数—取log—求最大似然函数时的参数,如果似然函数不可导或很难求导,就应用用EM算法的迭代计算的思想估参;贝叶斯估计理解朴素贝叶斯公式就可以了。非参数估计分三种,直方图、Parzen窗法(核密度估计)和Kn近邻法 直方图很好理解,核密度估计在直方图的基原创 2017-06-20 17:04:09 · 1194 阅读 · 0 评论 -
用bias/variance角度解释GDBT与RF的区别
首先,GBDT和RF都是集成方法中的经典模型,我们需要弄清楚下面几个问题: 1、GBDT是采用boosing方法,RF采用的是baggging方法 2、bias和variance是解释模型泛化性能的,其实还有噪声然后,理解GBDT和RF执行原理,其中GBDT中的核心是通过用分类器(如CART、RF)拟合损失函数梯度,而损失函数的定义就决定了在子区域内各个步长,其中就是期望输出与分类器预测输出的查原创 2017-06-20 16:31:03 · 1503 阅读 · 0 评论 -
实战from GBDT to Xgboost
这一系列主要是对DT、RF的简单介绍,以及对GBDT源码(Python)分析,然后成功搭建Xgboost工具,最后通过简单demo实例熟悉Xgboost建模过程。1.Decision Tree 决策树从一根节点出发,通过找到最优的分割点,不断地将样本集分裂生成子节点,直到满足停止条件为止(或直到每个节点足够“纯”为止)。 如何选择最优划分属性方法:信息增益(ID3)、信息率(C4.5)原创 2017-06-16 22:00:02 · 1287 阅读 · 0 评论 -
2017年腾讯基础研究笔试感受
刚刚完成了腾讯的2017年腾讯基础研究笔试题,谈一下感受。 考题分为选择题(26/60分钟)和简答题(3/60分钟),选择题很基础,尽管我基本上不会,但如果按照考研的那个水平,那是完全不用担心的,不知道以前的高数都还给谁了,内容很基础吗,其中涉及到: 选择题: 1)原创 2017-04-02 21:01:28 · 3873 阅读 · 0 评论 -
数据挖掘工程师大厂是最佳选择吗?
答案是All No!!! 好的team比好的厂要好得多得多!!! 目前,我在一家大厂实习已经有快5个月了,从数据开发岗转到算法工程师岗已快1个月,现在每天遇到最多的问题就是数据预处理和特征提取,建模的过程其实是很少的,模型的优化过程那基本上没有接触,或许我是一个实习生的原因吧,很期待,每天很充实,感触最深的就是原创 2017-03-23 21:30:00 · 830 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
http://blog.csdn.net/pipisorry/article/details/51373090吉布斯采样算法详解为什么要用吉布斯采样通俗解释一下什么是sampling。sampling就是以一定的概率分布,看发生什么事件。举一个例子。甲只能E:吃饭、学习、打球,时间T:上午、下午、晚上,天气W:晴朗、刮风、下雨。现在要一个sample,这个sample可以是:打球+下午+晴朗。。。问转载 2017-02-17 13:18:18 · 572 阅读 · 0 评论 -
大数据分析/挖掘求职——踏出校门的第一步
一个非常渴望进入数据分析/挖掘圈子的研二学习,在北京一个星期的大数据实习经历,希望能与即将出社会的同学一起共勉之。原创 2016-10-31 12:12:11 · 1229 阅读 · 0 评论 -
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
使用 Kafka 和 Spark Streaming 构建实时数据处理系统 来源:https://www.ibm.com/developerworks,这篇文章转载自微信里文章,正好解决了我项目中的技术问题,非常感谢。引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要转载 2016-10-31 14:33:31 · 4689 阅读 · 0 评论 -
HMM预测算法——Viterbi算法
**HMM预测算法——Viterbi算法** HMM是一个生成模型,表示状态序列和观测序列的联合分布,但是状态序是隐藏的,不可观测的。 Viterbi算法实际上用动态规划(dynamic programming)求HMM预测问题,用DP求概率最大路径,即寻找满足观测序列意义上最优隐含的状态序列。 (一)Viterbi算法可以分为两步: 第一步:从t=1开始,依次找到t=(1,2,,,T)时原创 2016-09-18 08:39:00 · 5975 阅读 · 1 评论 -
用知识图谱优化个性化推荐模型
最近的项目需要是,为了增加用户与商品之间的粘性,准备使用用户和商品的网络表示学习来补充商品的召回策略。微软研究院发表的一篇《如何将知识图谱特征学习应用到推荐系统?》还是写的比较好的,今天准备研究最近发表的RippleNet: Propagating User Preferences on Knowledge Graph for Recommender Systems,后续会把调研的一些paper...原创 2018-12-04 10:13:39 · 1982 阅读 · 0 评论