![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
文章平均质量分 52
且听风雨999
这个作者很懒,什么都没留下…
展开
-
(EM算法)The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是转载 2012-11-13 15:30:36 · 1499 阅读 · 0 评论 -
语义分析的一些方法(一)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or imag转载 2015-06-02 10:28:22 · 9384 阅读 · 1 评论 -
语义分析的一些方法(三)
3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里,人工特征提取是一个巨大的消耗性工作。转载 2015-06-02 10:29:12 · 15621 阅读 · 1 评论 -
语义分析的一些方法(中篇)
2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型的应用以及最新进转载 2015-06-02 10:28:12 · 9166 阅读 · 0 评论 -
文本特征提取方法研究
文本特征提取方法研究 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖转载 2015-06-02 15:12:44 · 12306 阅读 · 0 评论 -
特征简约(feature reduce)方法比较
从理论上讲,特征维度越多,需要的样本就越多,否则计算出来的分类模型和一个普通 的线性模型差不多。比如在采用 svm 进行分类的时候,如果维度大而样本少,其结果和不 采用任何非线性核函数的结果差不多。另外一方面,如果纬度太多,任何算法的计算速度都 会下降很严重。特征简约(feature reduce)是一种常见的降维技术(即减少特征维度),它 通常有如下几种技术: 1111)df df df转载 2015-05-19 20:18:54 · 2615 阅读 · 0 评论 -
我们是这样理解语言的
qq 我们是这样理解语言的 我们是这样理解语言的-2统计语言模型我们是这样理解语言的-3神经网络语言模型原创 2015-07-28 15:44:32 · 2485 阅读 · 0 评论 -
spark on hive
很多时候用spark处理数据,处理完后需要写回hive 数据仓库。 这时候用spark on hive 效率会高很多。rdd 处理完后, 先创建一个schemaschema = StructType([ StructField(“item_id”,StringType(), True), StructField(“feed_id”,StringType(), True), …原创 2015-10-30 10:38:02 · 3678 阅读 · 0 评论 -
技术文章聚类
机器学习数据平台Mesos资源调度与管理的深入分享与交流,基于Spark、Mesos、Hue、HDFS 等开源技术的多租户通过Mesos、Docker和Go,使用300行代码创建一个分布式系统大数据架构师基础:hadoop家族,Cloudera系列产品介绍开源项目Marathon:让你的数据中心像谷歌一样运行使用Mesos来管理Docker集群HBase原理和设计不平衡数据下的机器学习原创 2015-08-28 15:15:03 · 2189 阅读 · 1 评论 -
learning to rank
Learning To Rank之LambdaMART的前世今生 讲的很好LambdaMART简介——基于Ranklib源码(一lambda计算)lambda计算细节LambdaMART简介——基于Ranklib源码(二 Regression Tree训练)LambdaMART的源码分析:二(LambdaMART的流程)原创 2015-05-04 19:02:44 · 2210 阅读 · 0 评论 -
nlp 文本技术归纳
一直在做文本处理,但感觉做的很分散 没有系统,也没有发现很好的关于NLP的书籍。如果有,请推荐。 现在尝试着总结自己遇到的文本处理技术。1、工具linux 文本处理工具 awk sed 比较常用 推荐两篇左耳朵耗子的博客。我很喜欢的大牛,还有幸和他聊了20分钟,O(∩_∩)O哈哈~ AWK 简明教程 sed 简明教程 python 文本处理 这个也是文本处理的常原创 2015-03-29 09:41:16 · 3625 阅读 · 0 评论 -
rnn 相关
gate rnnrnn-lstm textDeep Sentence Embedding Using the Long Short Term Memory Network: Analysis and Application to Information RetrievalSEMANTIC MODELLING WITH LONG-SHORT-TERM MEMORY FOR INFORMATION原创 2015-03-03 14:14:16 · 3308 阅读 · 0 评论 -
Non-negative Matrix Factorization and Probabilistic Latent Semantic Analysis
Non-negative Matrix Factorization and Probabilistic Latent Semantic AnalysisOctober 12, 2011http://ezcodesample.com/plsaidiots/NMFPLSA.htmlIntroductionNon-negative Matrix Factorizati转载 2013-03-29 16:15:09 · 2004 阅读 · 0 评论 -
machine learning sampling 采样
今天在微博上看见晓风_机器学习放大招,写了一系列关于采样的知识,一个一个读不方便,就把它转载到这里。#抽样那些事#这里面引用了许多 LDA-math-MCMC 和 Gibbs Sampling中的内容。晓风_机器学习大神写的比较精简,但如果是刚接触采样,可以直接看LDA-math-MCMC 和 Gibbs Sampling,这里面有很详细并且浅显易懂的描述(连我这种菜鸟都能看懂o(╯□原创 2013-04-27 09:33:51 · 4105 阅读 · 0 评论 -
常用资源备忘
deep learning最近deep learning 很火,我也开始看一些paper 和教程。感觉有三个资源很好。tutorial第一个是Andrew Ng 教授的http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial 写的相当的棒,年初还被邓侃召集一帮牛人翻译成了中文。作为deep lear原创 2013-05-05 18:00:54 · 1057 阅读 · 0 评论 -
What are some good resources for learning about machine learning? Why
quora 上发现找到的。大家share吧PrerequisitesBefore you get to think about algorithms look carefully at the data and select all the relevant features to include in your model. See this talk by Jeremy转载 2013-10-29 11:24:40 · 2916 阅读 · 0 评论 -
NumPy学习笔记
[转]NumPy学习笔记 收集者:Keengle(http://www.kgblog.net)http://www.techwork.cn/paul/?p=530最近在学习scipy。在理解scipy之前,numpy作为scipy基本的模块之一,是不得不去理解掌握的。先总结一下numpy部分的内容吧。接下来学习scipy,最后是pylab和Matplotlib。介绍转载 2014-01-01 23:46:36 · 1258 阅读 · 0 评论 -
gbdt 资料
yahoop gbdt实现http://lccc.eecs.berkeley.edu/Slides/YeChChZh10_slides.pdf原创 2014-04-26 15:57:43 · 1137 阅读 · 0 评论 -
搜索 学习
搜索 日志 分析用户集体智慧 yongx原创 2014-07-13 10:08:53 · 3999 阅读 · 2 评论 -
deep learning in NLP
Word2vec在事件挖掘中的调研 sehttp://blog.csdn.net/shuishiman/article/details/20769437原创 2014-07-09 10:23:32 · 1401 阅读 · 0 评论 -
word2vec
word2vec 资料收集word2vec Parameter Learning ExplainedDeep Learning in NLP (一)词向量和语言模型word2vec 中的数学原理详解原创 2015-03-02 11:19:49 · 3142 阅读 · 0 评论 -
NLP papers
收集的比较好的NLP 论文 资料maxentcrfRNNlstmmaxentcrfRNN1、 一个日本人讲的rnn http://computing.dcu.ie/~tokita/CA684tsuyoshi.pdf2、 将lstm 用于信息检索 论文说比微软的DSSM高两个点,貌似不错。 不过最喜欢的还是论文后面的对lstm的详细推到 Deep Sentence Em原创 2015-03-02 17:54:32 · 3489 阅读 · 0 评论 -
浅谈 Adaboost 算法
菜鸟最近开始学习machine learning。发现adaboost 挺有趣,就把自己的一些思考写下来。主要参考了http://stblog.baidu-tech.com/?p=19,其实说抄也不为过,但是我添加了一些我认为有意思的东西,所以我还是把它贴出来了,呵呵。一 Boosting 算法的起源boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。原创 2012-04-26 16:16:38 · 192523 阅读 · 76 评论