自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TengTG的专栏

自己学习记录用

  • 博客(14)
  • 收藏
  • 关注

原创 机器学习评估指标总结

1.准确率精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。                      P = TP/(TP+FP)2.召回率召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的

2017-10-25 20:53:11 345

原创 Logistic Regression 算法学习

逻辑回归算法,可以说是最基本的分类算法之一,一般为2分类,也可以扩展为多分类。下面言简意赅的温习该算法的相关知识点。概率函数:

2017-10-14 21:03:04 217

原创 NG机器学习第六周:关于模型的调优选择

评判一个模型:   回归:  J(Θ) 的大小,越小越好逻辑回归分类:  用错误率 err( hΘ(x)-y)来衡量。选择模型: 分别用几次方程拟合比较合适, 把数据集分为:  训练集, 交叉验证集(cv),测试集合。分别占比6,2,2。 用训练集分别对不同的模型(不同阶)训练, 然后再交叉集上选出一个最好的模型, 然后再用测试集来得到它的泛化误差。偏差 b

2017-03-19 14:32:06 693

原创 推荐系统实践阅读笔记——第三章 推荐系统的冷启动问题

3.1 冷启动问题简介冷启动问题分为三类:1. 给新用户做个性化推荐,因为新用户没有行为数据2.将新的物品推荐出去3.如何在一个新的平台做推荐解决方案有三类:1. 提供非个性化推荐, 用热门推荐2. 利用用户注册信息年龄性别等数据做粗粒度的个性化( 先根据用户的注册信息进行分类, 然后给他推荐同类人喜欢的东西)3.借助其他手段获取用户信息,诸如社交账号授权,

2017-03-08 09:34:43 758

原创 todolist

3月2日:今天分别尝试lda模型和ifidf做训练,发现tfidf效果甚至不如tfidf , 直观性不好。另外了解协同过滤方法,  其中spark提供了ALS方法,用矩阵分别的方式来进行评估。 不明白其原理, 以及http://muricoca.github.io/crab/ python 的库  是怎么实现的cf算法。https://github.com/ocelma/python-

2017-03-02 20:37:46 327

原创 推荐系统实践阅读笔记——第二章 利用用户的行为数据

协同过滤算法:仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法。学术界对协同过滤算法进行了深入研究,提出了很多方法,比如基于邻域的方法(neighborhood-based)、隐语义模型(latent factor model)、基于图的随机游走算法(random walk on graph)等。在这些方法中,最著名的、在业界得到最广泛应用的算法是基于邻域的方法。而基于邻域的方法

2017-03-01 16:59:08 1131

转载 用户画像分析

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207159018&idx=1&sn=9ff0aac1d48e2ab10e7479f4e87a20b7#rd

2017-02-21 10:55:22 927

转载 推荐算法的总结

https://medium.com/recommendation-appraising/8302686cd582#.yotjiuv2m

2017-02-13 17:36:49 888

原创 文本向量化的方法

向量空间模型(Vector Space Model)[3],又称词袋表示法,文本被表示为向量,文本 d 被看成由二元特征组成的特征向量。 一般是先选择特征,再计算权重,特征选则的方式见前一篇文章。权重一般用ifidf,词向量化就是把每个词都用一个向量来表示,真是把计算机的最后一滴血榨干啊。但是不得不说这是个天才的做法。因为想到是容易的,我也想到了,但是做到这么好还真

2017-02-10 16:54:40 22731

原创 EM算法的学习,看完这几篇就懂了

em算法是针对有隐藏变量的case, 然后先估算隐藏变量的概率分布,再估算模型参数, 然后一个不断迭代的过程http://blog.csdn.net/zouxy09/article/details/8537620先看从最大似然估计到em算法。 没有隐藏变量就是极大似然估计,有隐藏变量就是用em算法求解。jensen不等式的引入; 凹函数凸函数推导证明见 http

2017-01-18 11:50:12 620

原创 word2vec

阅读资料http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C/comment-page-1中英文维基百科语料上的Word2Vec实

2016-12-14 15:05:09 380

转载 特征选择阅读文章

http://sanwen8.cn/p/289DJyG.htmlhttp://blog.chinaunix.net/uid-20761674-id-4628888.html

2016-12-13 14:21:38 244

原创 统计学习方法李航---第一章

变量解读输入空间输出空间特征空间假设空间, 输入空间到输出空间映射的集合。可以是决策函数的集合,也可以是条件概率的集合,分别为非概率模型和概率模型。损失函数,f(x)和y的非负值函数L(f(x), y),用于描述两者的差异, 其越小越好,经验风险(经验损失), 损失函数在测试集上的平均值,除了经验风险之外,为了防止过拟合,引入了结构风险,J(f) 代表了模型

2016-11-17 16:11:59 680

原创 HMM学习笔记

一 . HMM三假设前提对 HMM 来说,有如下三个重要假设    假设1:马尔可夫假设(状态构成一阶马尔可夫链)  假设2:不动性假设(状态与具体时间无关)  假设3:输出独立性假设(输出仅与当前状态有关)其中o表示可以观察的状态, x表示结果。二 . HMM五元组1个 HMM 可用一个5元组 { N, M, π,A,B } 表示,其中

2016-09-18 11:40:27 356

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除