TengTG-CSDN博客

原创机器学习评估指标总结

1.准确率精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)。 P = TP/(TP+FP)2.召回率召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的

2017-10-25 20:53:11 371

原创 Logistic Regression 算法学习

逻辑回归算法，可以说是最基本的分类算法之一，一般为2分类，也可以扩展为多分类。下面言简意赅的温习该算法的相关知识点。概率函数：

2017-10-14 21:03:04 234

原创 NG机器学习第六周：关于模型的调优选择

评判一个模型：回归： J(Θ）的大小，越小越好逻辑回归分类：用错误率 err（ hΘ（x）-y）来衡量。选择模型：分别用几次方程拟合比较合适，把数据集分为：训练集，交叉验证集（cv），测试集合。分别占比6,2,2。用训练集分别对不同的模型（不同阶）训练，然后再交叉集上选出一个最好的模型，然后再用测试集来得到它的泛化误差。偏差 b

2017-03-19 14:32:06 712

原创推荐系统实践阅读笔记——第三章推荐系统的冷启动问题

3.1 冷启动问题简介冷启动问题分为三类：1. 给新用户做个性化推荐，因为新用户没有行为数据2.将新的物品推荐出去3.如何在一个新的平台做推荐解决方案有三类：1. 提供非个性化推荐，用热门推荐2. 利用用户注册信息年龄性别等数据做粗粒度的个性化（先根据用户的注册信息进行分类，然后给他推荐同类人喜欢的东西）3.借助其他手段获取用户信息，诸如社交账号授权，

2017-03-08 09:34:43 771

原创 todolist

3月2日：今天分别尝试lda模型和ifidf做训练，发现tfidf效果甚至不如tfidf ，直观性不好。另外了解协同过滤方法，其中spark提供了ALS方法，用矩阵分别的方式来进行评估。不明白其原理，以及http://muricoca.github.io/crab/ python 的库是怎么实现的cf算法。https://github.com/ocelma/python-

2017-03-02 20:37:46 341

原创推荐系统实践阅读笔记——第二章利用用户的行为数据

协同过滤算法：仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法。学术界对协同过滤算法进行了深入研究，提出了很多方法，比如基于邻域的方法（neighborhood-based）、隐语义模型（latent factor model）、基于图的随机游走算法（random walk on graph）等。在这些方法中，最著名的、在业界得到最广泛应用的算法是基于邻域的方法。而基于邻域的方法

2017-03-01 16:59:08 1171

转载用户画像分析

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207159018&idx=1&sn=9ff0aac1d48e2ab10e7479f4e87a20b7#rd

2017-02-21 10:55:22 945

转载推荐算法的总结

https://medium.com/recommendation-appraising/8302686cd582#.yotjiuv2m

2017-02-13 17:36:49 908

原创文本向量化的方法

向量空间模型（Vector Space Model）[3]，又称词袋表示法，文本被表示为向量，文本 d 被看成由二元特征组成的特征向量。一般是先选择特征，再计算权重，特征选则的方式见前一篇文章。权重一般用ifidf，词向量化就是把每个词都用一个向量来表示，真是把计算机的最后一滴血榨干啊。但是不得不说这是个天才的做法。因为想到是容易的，我也想到了，但是做到这么好还真

2017-02-10 16:54:40 22864

原创 EM算法的学习，看完这几篇就懂了

em算法是针对有隐藏变量的case，然后先估算隐藏变量的概率分布，再估算模型参数，然后一个不断迭代的过程http://blog.csdn.net/zouxy09/article/details/8537620先看从最大似然估计到em算法。没有隐藏变量就是极大似然估计，有隐藏变量就是用em算法求解。jensen不等式的引入；凹函数凸函数推导证明见 http

2017-01-18 11:50:12 633

原创 word2vec

阅读资料http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C/comment-page-1中英文维基百科语料上的Word2Vec实

2016-12-14 15:05:09 395

转载特征选择阅读文章

http://sanwen8.cn/p/289DJyG.htmlhttp://blog.chinaunix.net/uid-20761674-id-4628888.html

2016-12-13 14:21:38 261

原创统计学习方法李航---第一章

变量解读输入空间输出空间特征空间假设空间，输入空间到输出空间映射的集合。可以是决策函数的集合，也可以是条件概率的集合，分别为非概率模型和概率模型。损失函数，f(x）和y的非负值函数L（f(x), y），用于描述两者的差异，其越小越好，经验风险（经验损失），损失函数在测试集上的平均值,除了经验风险之外，为了防止过拟合，引入了结构风险，J(f) 代表了模型

2016-11-17 16:11:59 692

原创 HMM学习笔记

一 . HMM三假设前提对 HMM 来说，有如下三个重要假设　　　　假设1：马尔可夫假设（状态构成一阶马尔可夫链）　　假设2：不动性假设（状态与具体时间无关）　　假设3：输出独立性假设（输出仅与当前状态有关）其中o表示可以观察的状态， x表示结果。二 . HMM五元组1个 HMM 可用一个5元组 { N, M, π，A，B } 表示，其中

2016-09-18 11:40:27 388

TengTG的专栏