机器学习
文章平均质量分 68
一个人的场域
目前主要做NLP、推荐算法相关工作
展开
-
word2vec
参考http://www.mamicode.com/info-detail-859790.html起源:One-hot Representation、PCA序:为什么NLP在模式识别里面比较难?Licstar的文章开头这么提到:语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号。语音、图像数据表达不需要特殊的编码,而转载 2016-07-25 11:38:50 · 881 阅读 · 0 评论 -
机器学习之决策树(Decision Tree)
1. 什么是决策树 决策树又称为判定树,decision tree。 决策树与平时我们常画的流程图十分相似。 根据数据: 可以创造出类似以下的决策树: 每一个内部结点表示对某一个属性的测试(流程图中的菱形), 每个分支的产生代表一个属性的一个可取值,而树叶结点表示类的分布。原创 2016-10-27 23:08:43 · 864 阅读 · 0 评论 -
决策树的究极进化之Bagging和Boosting
决策树基础参考: http://blog.csdn.net/leiting_imecas/article/details/52950663本节介绍决策树的究极进化1. Bagging(bootstrap Aggregation) bootstrap即拔靴带,帮助提靴的纽带,统计学上称为自住法; aggregating是指聚集. 机器学习的bagging方法指对多个学习原创 2017-02-09 17:07:03 · 1319 阅读 · 0 评论 -
机器学习之简单线性回归
1. 集中趋势衡量 (1)理解以下名词:平均值(),中位数,众数 (2)方差, 标准差s2. 回归(regression)与分类(classification) 回归:Y变量为连续数值型(continuous numerical variable),例如房价 分类:Y变量为类别型(category variable),例如颜色类别3. 简单线性回归(原创 2016-11-01 22:22:31 · 350 阅读 · 0 评论 -
最小二乘与梯度下降
http://blog.csdn.net/guang09080908/article/details/41415193 说:最小二乘和极大似然是目标函数,梯度下降是优化算法。机器学习的核心是一个model,一个loss fuction,再加上一个优化的算法。一个目标函数可以用不同的优化算法,不同的目标函数也可以用相同的优化算法。所以最小二乘和极大似然根本不是算法,和梯度下降毫无可比原创 2017-01-20 14:37:24 · 368 阅读 · 0 评论 -
svm 多分类机制
参考 http://www.cnblogs.com/CheeseZH/p/5265959.htmlSVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题转载 2017-01-20 16:23:45 · 493 阅读 · 0 评论 -
机器学习之特征工程(一)
一 什么是特征工程特征是指数据中抽取出来的对结果预测有用的信息特征工程是使用专业背景和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。特征工程的意义:1.更好的特征意味着更强的灵活性 2更好的特征意味着只需要简单模型 3更好的特征意味着更好的结果应用机器学习的主要工作就是特征工程数据和特征决定了算法能达到的上限,算法和模型的选择只是无限接近这个上限原创 2017-02-11 18:27:57 · 3472 阅读 · 0 评论 -
机器学习之特征归一化(normalization)
参考自斯坦福机器学习课程一 引子对房屋售价进行预测时,我们的特征仅有房屋面积一项,但是,在实际生活中,卧室数目也一定程度上影响了房屋售价。下面,我们有这样一组训练样本:房屋面积(英尺)卧室数量(间)售价(美元)210433999001600332990024003369000原创 2017-02-11 21:07:49 · 52710 阅读 · 0 评论 -
熵与分类问题
在介绍熵之前,先从另一个概念说起:信息量世界杯决赛的两支球队中,哪支球队获得了冠军?(两个类别中选择其一)在对球队实力没有任何了解的情况下,每支球队夺冠的概率都是1/2,所以谁获得冠军这条信息的信息量是 - log2 1/2 = 1 bit。如果信息是四强中的球队谁获得了冠军,它的信息量是 - log2 1/4 = 2 bit。其实这正好对应了计算机对数字的表示,如果用二进转载 2016-10-24 23:49:58 · 1987 阅读 · 0 评论 -
交叉验证(Cross validation)总结
一 什么是CV CV,通俗理解就是使用训练数据和测试数据交叉的方式来验证一个(或多个)模型的性能,以此判定算法在数据上的大致性能。 使用CV可以大致估算出模型的准确率;当模型中有超参数(hyperparameter)时,可以使用CV的方法选取这些超参二 为什么需要CV 构建机器学习模型的一个重要环节是评价模型在新数据上的性能。模型过于简原创 2017-01-23 13:11:21 · 3050 阅读 · 2 评论 -
正则化方法:L1和L2 regularization及区别、数据集扩增、dropout
参考 http://blog.csdn.net/u012162613/article/details/44261657正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在转载 2017-02-21 23:58:44 · 1610 阅读 · 0 评论 -
从sklearn.preprocessing, sklearn.feature_selection学习特征工程之预处理
基本特征工程基本框架如下图。 本文借助sklearn介绍其中的预处理部分二 单特征预处理 标准化 Standardization 或者叫 mean removal and variance scaling(平均值移除、方差缩放) 说明1: 标准化其实就是干两件事:“transform the data to center” ,即原创 2017-03-03 00:42:06 · 800 阅读 · 0 评论 -
机器学习之特征工程(二)
本节主要介绍数据和特征处理。一 特征处理 (1)数值型 1. 特征缩放 包括标准化和归一化,参看 http://blog.csdn.net/leiting_imecas/article/details/54986045 2. log等变化 特征可能不能通过线原创 2017-02-11 23:20:30 · 1337 阅读 · 0 评论 -
新闻内容去重算法simhash实践
前言 最近做了新闻去重算法的工作,mark下 两个应用场景:1. 重复新闻整体检测、去重 2. 从非重复的新闻中寻找重复的句子,依次判断两篇新闻是否存在同一个话题的不同观点(多方观点提取) 本人不负责爬虫,爬虫的同事只做了简单的新闻title重复的检测、去重。 我提供内容的检测算法一 通用网页去重算法框架 二 simhash原创 2017-02-16 18:50:18 · 5734 阅读 · 3 评论 -
LDA的Gibbs 采样
1 马尔可夫链马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。马尔可夫链是具有马尔可夫性质的随机变量的一个数列。这些变量的范围,即它们所有可能取值的集合,被称为“状态空间”,而的值则是在时间n的状态。如果对于过去状态的条件概率分布仅是的一个函数,则这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。马尔可夫链是满足马尔可夫性质的随机过程。马原创 2017-04-04 21:13:59 · 1195 阅读 · 0 评论 -
逻辑回归(Logistic Regression)详解
一 什么是逻辑回归 首先,LR虽然名字里有回归,但它并不是解决回归问题,而是解决分类问题的。 另外,有人会问,为线性回归提供阈值来做分类不可以吗? 不可以,因为阈值是无法准确定义,模型是容易被样本数据拉偏的。 之所以LR是个分类问题,却被叫做回归,因为它利用了sigmoid函数。 sigmoid 可以将数据(LR中指输出y)压缩到[0, 1]之间,它经过一个原创 2017-01-21 10:24:50 · 3257 阅读 · 1 评论 -
评估目标之RMSE,MAP,NDCG
今天终于得空写点最近看的东西。 最近在看排序算法lambadarank,先写下几种evaluation metrics1. MSEMSE(mean square error, 均方误差)是预测值与真实值差的平方的期望: 2. RMSERMSE(root mean square error, 均方根误差)是MSE的算数平方根 RMSE在常在原创 2017-10-19 00:02:25 · 3057 阅读 · 0 评论 -
机器学习信仰之朴素贝叶斯法
敲黑板,划重点上大学那会,贝叶斯定理是用来求条件概率的;现在才知道,贝叶斯定理其实是在讲先验、似然与后验的故事。 贝叶斯定理是一种信仰。1、频率学派与贝叶斯学派频率学派认为,概率表述一件事发生的频率,是客观存在的一个值;同时,样本X时随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布贝叶斯学派认为概率是我们的个人的主观概念,表示我们对某件事发生的相信程度。待估计的概率the原创 2017-10-31 00:30:27 · 622 阅读 · 0 评论 -
方差,标准差,MSE, RMSE
1. 方差 样本X的期望 方差是一种特殊的期望, 标准差 即上面的S MSE(均方差) RMSE(均方根差)原创 2017-02-08 10:34:30 · 2351 阅读 · 0 评论 -
高偏差、高方差、低精确率与低召回率、混淆矩阵
本文是个人理解1.高偏差(high bias)与方差(high variance) 偏差,可以理解为样本与模型预测结果的差距,可以使用平方差计算 方差是样本y值与模型期望的差的平方和。 模型对实验数据欠拟合(underfitting) 是会出现搞偏差,而过拟合(overfitting)会造成高方差 解决方法:直接的方法是将实验数据一分为二:训练集和测试集原创 2017-01-05 17:27:36 · 2703 阅读 · 0 评论 -
机器学习训练集之traing 、validation、test data set
Normally to perform supervised learning you need two types of data sets:In one dataset (your "gold standard") you have the input data together with correct/expected output, This dataset is usu原创 2016-07-14 11:20:41 · 5292 阅读 · 0 评论 -
贝叶斯定理
参考: http://blog.csdn.net/kesalin/article/details/40370325/简介贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介:所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的转载 2016-07-17 23:21:55 · 790 阅读 · 0 评论 -
tensorflow libpng 出错
报错:libpng warning: Application was compiled with png.h from libpng-1.6.17libpng warning: Application is running with png.c from libpng-1.2.53libpng error: Incompatible libpng version in applic原创 2016-07-29 15:47:07 · 1431 阅读 · 1 评论 -
拟合与回归
拟合是一种数据处理的方式,不特指哪种方法。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数。 回归是一种定的数学方法,它可以实现数据拟合,得到函数的参数。 也有些拟合得到的参数并非是函数的参数,如神经网络,得到的是这个神经网络的参数转载 2016-07-19 17:48:18 · 571 阅读 · 0 评论 -
Bag of words模型概述
Bag-of-words modelBag-of-words model (BoW model) 最早出现在NLP和IR领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档. 近年来, BoW模型被广泛应用于计算机视觉中. 与应用于文本的BoW类比, 图像的特征(feature)被当作单词(Word).引子: 应用于文本的BoW m转载 2016-07-21 18:06:51 · 327 阅读 · 0 评论 -
TF-IDF简易说明
百度新闻之类的系统,它从互联网上收集文章,然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊,那怎样让计算机读懂文章的内容并做出合适的分类呢?大家都学过余弦定理吧,自动归类的算法有赖于余弦定理。最简单的计算文章向量的方法是给定一个词表(如64000常用词),再计算文章中每个词的权重。权重算法下面再介绍。所以,只要能够用一个向量来代表文章,然后计算它与分类转载 2016-08-05 12:10:23 · 350 阅读 · 0 评论 -
文本特征选择之互信息和卡方
在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息 一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下: 应用到文本特征选择:转载 2016-08-17 17:48:08 · 13348 阅读 · 2 评论 -
csr_matrix参数解析
压缩稀疏矩阵构造时的参数从官网看不明白,参考如下:>>> indptr = np.array([0, 2, 3, 6])>>> indices = np.array([0, 2, 2, 0, 1, 2])>>> data = np.array([1, 2, 3, 4, 5, 6])>>> csr_matrix((data, indices, indptr), shap转载 2016-08-18 14:23:49 · 3112 阅读 · 0 评论 -
文本分类 特征选取之CHI开方检验
http://blog.csdn.net/wangran51/article/details/8446234除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。开方检验最基本的思想就是通过观察实际值与理论值的偏转载 2016-08-08 16:41:43 · 478 阅读 · 0 评论 -
1208个中文停用词
,?、。“”《》!,:;?人民末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然转载 2016-08-08 18:02:15 · 1156 阅读 · 0 评论 -
livsvm文本分类总结
参考 http://www.lai18.com/content/1594216.html1(1)使用CHI挑选文本类的特征词汇。->(2)使用TFIDF计算相对于某一文本,步骤1中得出的每个特征词汇的tfidf值,从而得出每一个文本的特征向量。->(3)使用libsvm进行分类。2,使用CHI挑选特征 参考文章:http://blog.csdn.net/wangran51/articl转载 2016-08-12 15:05:44 · 845 阅读 · 0 评论 -
tf-idf, CHI, TextRank
CHI、TFIDF既可以作为特征选取也可以作为权重计算的方法。不同之处在于TFIDF可以用于任意文本集合,而CHI则需要文本有分类标签的标记才能计算。TextRank最初是作为关键词抽取方法提出来的,后来也有人尝试作为权重计算方法,但需要注意的是TextRank的计算复杂度很高(后续再补充)原创 2016-08-12 15:08:36 · 1856 阅读 · 1 评论 -
NLP语言模型
参考 https://www.zhihu.com/question/40309730 NLP通常包括两个关键问题:1.选择什么样的语言模型?2.选择什么样的分类算法?第二个问题是机器学习领域的标准问题,各种针对不同数据类型、数据分布的算法和技巧,这里不再赘述。而在NLP当中,语言模型更加重要一些。不同语言模型的区别,也就是对文本提取特征的不同。常用的模型有:1.转载 2016-10-26 16:15:59 · 1151 阅读 · 0 评论 -
极大似然估计
一 概念 极大似然估计(Maximum Likelihood Estimate, MLE)是一种统计方法,又称为最大概率估计或者最大似然估计,它用来求一个样本集的相关概率密度函数的参数,是利用已知采样估计未知参数的方法。 二 解释 给定一个概率分布,假定其概率密度函数(连续分布)或概率质量函数(离散分布)为,以及一个分布参数,我们可以从这个分原创 2016-11-30 22:37:18 · 407 阅读 · 0 评论 -
关于共轭分布,beta分布,二项分布和Dirichlet分布、多项式分布的关系
参考:http://www.cnblogs.com/wybang/p/3206719.html在机器学习领域中,概率模型是一个常用的利器。用它来对问题进行建模,有几点好处:1)当给定参数分布的假设空间后,可以通过很严格的数学推导,得到模型的似然分布,这样模型可以有很好的概率解释;2)可以利用现有的EM算法或者Variational method来学习。通常为了方便推导参数的后验分布,会转载 2016-12-06 20:57:12 · 5247 阅读 · 0 评论 -
主题模型相关的几个概念
一 基本概念 (1)概率密度函数、分布率与分布函数 例图: 概率密度函数(probability density function, PDF)f(x) 是连续型随机变量的概念,是指在某个确定的点(x)附近的可能性的函数 性质:① ;② ;③ (2)分布率原创 2016-11-30 23:11:04 · 1132 阅读 · 0 评论 -
机器学习信仰之决策树
1、决策树是一种基本的分类、回归算法 2、1986年ID3算法;1994年C4.5算法;1984年CART算法 3、决策树从根节点到一个叶节点表示一条路径,代表一串规则、条件。 4、决策树考量的是叶节点代表的条件概率,是判别模型 5、决策树算法包括特征选择、树的生成、剪枝三个步骤。 由于决策树表示一个条件概率分布,所有不同的树的深度代表不同复杂度的概率模型;决策树的生成对应模型的局部选择,剪原创 2017-11-05 15:51:25 · 543 阅读 · 0 评论