![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 74
追梦船
机器学习,自然语言处理方向的小菜鸟
展开
-
Standford NG机器学习 神经网络(Neural Network)的表示
上一讲讲了如何用逻辑回归来解决分类问题,如果在两个类多维线性不可分的情况下,可以通过添加多项式项把向量投影到高维空间使得它线性可分。但这也存在一个问题,就是当选取的特征很多的时候,featurevector可能高达几千维,这就是维数爆炸的问题。 比如,如果有一个n个feature的向量,如果用二次项去拟合,那么产生的多项式会有x1^2,x1x2,x1x3…;x2^2, x2x转载 2013-10-30 14:57:26 · 1474 阅读 · 0 评论 -
如何预测用户query意图
有一个朋友问,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。 我回答说,分析之前搜索这个query的用户点了些什么结果啊。 朋友继续问,如果没有用户点击呢。 呃,如果没有点击,这个问题就比较复杂了。整理了下思路,于是写成了本文。主要描述了关于如何预测用户query意图。希望会有所帮助。 首先我们的明确一个标准,如何判断我们对用户意图的猜测是正确的?转载 2014-12-16 12:43:22 · 1738 阅读 · 0 评论 -
重读网络挖掘中community detection 文章--Fast unfolding of communities in large networks
最近在做community detection, 找到了fast unfolding 算法。分享一下这篇博文,转自http://blog.csdn.net/hero_fantao/article/details/38929803------------------------------------------------------------------------------------转载 2014-12-18 09:50:24 · 3446 阅读 · 0 评论 -
不平衡学习方法理论和实战总结
转自:http://blog.csdn.net/hero_fantao/article/details/35784773不平衡学习方法机器学习中样本不平衡问题大致分为两方面:(1)类别中样本比率不平衡,但是几个类别的样本都足够多;(2)类别中某类样本较少。对第二个问题,其实不是我们重点,因为样本不足的话,覆盖空间是很小,如果特征足够多的话,这种数据对模型学习的价转载 2014-12-18 10:01:16 · 1154 阅读 · 0 评论 -
正反例极不平衡的数据集的采样
正负样本不均匀如何处理?转自http://www.alidata.org/archives/205-----------------------------------------------------------------------今天在网上看到有人讨论这个问题,原问题描述如下: 类不均衡问题是“分类型数据挖掘”(我就直接按照目标变量来定义概念了哈)实际项目转载 2014-12-10 11:27:48 · 1817 阅读 · 0 评论 -
机器学习基础
最小二乘最小二乘法又称最小平方法,是一种优化方法,其主要思路是最小化残差的平方和,残差是观测数据和预测值之间的差值“Least squares” means that the overall solution minimizes the sum of the squares of the errors made in the results of every single equati转载 2014-12-10 14:38:32 · 829 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
非常好的总结!转自:http://www.chinakdd.com/article-oyU85v018dQL0Iu.html——————————————————————————————————————————前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习转载 2015-02-04 21:20:41 · 795 阅读 · 0 评论 -
朴素贝叶斯 VS 逻辑回归
总结起来,有以下几点不同:(1) Naive Bayes是一个生成模型,在计算P(y|x)之前,先要从训练数据中计算P(x|y)和P(y)的概率,从而利用贝叶斯公式计算P(y|x)。 Logistic Regression是一个判别模型,它通过在训练数据集上最大化判别函数P(y|x)学习得到,不需要知道P(x|y)和P(y)。(2) Naive Bayes转载 2015-02-05 10:09:23 · 765 阅读 · 0 评论 -
决策树模型组合之随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策转载 2015-02-28 10:25:02 · 894 阅读 · 0 评论 -
深度学习,自然语言处理和表征方法
简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。单隐层神经网络单隐层神经网转载 2014-10-23 10:26:21 · 1899 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2014-09-16 14:09:00 · 803 阅读 · 0 评论 -
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有转载 2014-09-12 11:07:28 · 668 阅读 · 0 评论 -
SVM对偶问题
转自http://blog.csdn.net/zxia1/article/details/8460287当年看SVM时,对SVM最优化求解过程中对偶问题的一些方面还有些迷糊,今天看到有人写的一系列博客,用来深入了解这方面比较好,转载如下,源地址为:http://blog.csdn.net/vivihe0/article/details/7019826。—————————转载 2013-11-13 23:43:15 · 1678 阅读 · 0 评论 -
隐马尔可夫模型细谈
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子转载 2014-01-15 17:32:40 · 1182 阅读 · 1 评论 -
机器学习/数据挖掘之中国大牛
开学以来,由于课程压力比较大,加上自己在参加一些项目,未能及时更新博客。深有荒废之感,只能多积累,暂时只输入,不输出,等下学期时间充足了再多写博客。转载自:http://blog.csdn.net/playoffs/article/details/7588597推荐几个机器学习和数据挖掘领域相关的中国大牛:李航:http://research.microsoft.com/e转载 2014-01-16 11:41:33 · 1166 阅读 · 0 评论 -
机器学习经典书籍
想学机器学习的同学有福了!在网上发现了这个资源,共享一下。以后有时间慢慢看!^_^转自http://suanfazu.com/discussion/109/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E4%B9%A6%E7%B1%8D#0-tsina-1-51417-397232819ff9a47a7b7e80a40613c转载 2014-01-05 13:26:09 · 1831 阅读 · 1 评论 -
SRILM语言模型工具
最近学习了一下SRILM的源代码,分享一下学习笔记(最新完整版本),希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平,不足之处,望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制,主要针对SRILM的训练(ngram-count),内含5个jpg文件:类图--与ngram-count相关的主要类的静态图;ngram-count--从语料训练出模型的主要转载 2014-02-19 17:51:33 · 2788 阅读 · 0 评论 -
语音识别结果文本纠错综述
语音识别结果的纠错是语音理解过程中的一项重要工作。由于受限于语音识别的准确性,语音识别的结果常常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。语音识别结果的纠错可以对一些识别的错误结果进行纠正,从而提高语音理解的准确性。目前,用于语音识别结果纠正的方法有很多,但还没有一个主流的方法。大多数的ASR后修正的研究都是基于词的识别结果概率信息的统计方法。Ringger和Al原创 2014-04-16 16:08:46 · 9777 阅读 · 5 评论 -
基于深层神经网络的命名实体识别技术
命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。引言命名实体识别(Named Entity Recognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。命名实转载 2015-09-12 10:58:00 · 1452 阅读 · 0 评论