NLP
文章平均质量分 80
sunlylorn
2010.7校招加入腾讯目前就职于360搜索
展开
-
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
原文地址:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/index.html赵 晨婷, 软件工程师, IBM赵晨婷,现就职于 IBM 中国软件开发中心 Web 2.0 开转载 2011-08-16 15:37:56 · 844 阅读 · 0 评论 -
OpenCV 编程简介(矩阵/图像/视频的基本读写操作)
<!--@page {margin:2cm}pre {font-family:"DejaVu Sans Mono",monospace}h4 {margin-bottom:0.21cm}h4.western {font-family:"DejaVu Serif",serif}h4.cjk {font-family:"DejaVu Sans"; font-转载 2012-09-01 10:15:47 · 2216 阅读 · 0 评论 -
Ubuntu下安装opencv
<!--@page {margin:2cm}p {margin-bottom:0.21cm}-->一、下载代码1、一些会用到的库sudo apt-get install build-essential cmake libgtk2.0-dev libtiff4-dev libjasper-dev libavformat-dev libswscale-原创 2012-08-25 21:00:39 · 11782 阅读 · 1 评论 -
cv::Mat,cvMat和IplImage的相互转换方法
Mat类型较CvMat和IplImage有更强的矩阵运算能力,支持常见的矩阵运算(参照Matlab中的各种矩阵运算),所以将IplImage类型和CvMat类型转换为Mat类型更易于数据处理。Mat类型可用于直接存储图像信息,通过函数imread、imwrite、imshow等实现(与Matlab中的函数相似),似乎在某种程度上可以取代IplImage类型。(1)将IplImage转载 2012-09-10 12:57:38 · 10337 阅读 · 1 评论 -
基于论坛话题段落划分的答案识别
从实验室离开两年了,想不到毕业设计论文被发表出来了。哈哈http://www.aas.net.cn/qikan/Cpaper/zhaiyao.asp?bsid=14676*******************************************************我是华丽的分割线******************************************原创 2013-01-31 18:44:28 · 883 阅读 · 0 评论 -
个性化离线实时分析系统pora
1.业务场景伴随着市场和技术的发展,个性化已经成为淘宝搜索的一个重要目标。简单来说,个性化就是让每个用户在使用淘宝搜索时都能够获取自己最想要的结果,而不再是千篇一律的展示。实现个性化最直接的手段就是通过分析用户的历史行为日志,为用户打上不同的标签,在搜索中根据这些标签来展示最贴近的结果。在淘宝,用户属性分析是通过每天在云梯上定时运行的map reduce job来完成的,产出结果导入我们的转载 2013-05-13 14:03:48 · 992 阅读 · 0 评论 -
中文依存句法分析概述及应用
句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。短语结构和依存结构是目前句法分析中研究最广泛的两类文法体系。这里先大概介绍下依存结构。依存文法最早由法国语言学家L.Tesniere在其转载 2013-05-13 14:23:34 · 2589 阅读 · 0 评论 -
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。转载 2013-05-13 14:12:29 · 1159 阅读 · 0 评论 -
如何预测用户query意图
有一个朋友问,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。我回答说,分析之前搜索这个query的用户点了些什么结果啊。朋友继续问,如果没有用户点击呢。呃,如果没有点击,这个问题就比较复杂了。整理了下思路,于是写成了本文。主要描述了关于如何预测用户query意图。希望会有所帮助。首先我们的明确一个标准,如何判断我们对用户意图的猜测是正确的?转载 2013-05-13 14:10:34 · 1578 阅读 · 0 评论 -
安装deep learning 的 python开发环境
最近在看deep learning的相关知识,从deeplearning.net上下载了一份代码,需要配置以下环境:安装步骤如下:0、python最好是2.6以上的,版本低的,记得升级一下。1、安装setuptoolshttps://pypi.python.org/pypi/setuptools/ python setup.py install 提示错误:Com原创 2014-01-23 17:46:30 · 7404 阅读 · 0 评论 -
LDA-math-MCMC 和 Gibbs Sampling
随机模拟随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程转载 2014-01-26 11:49:16 · 2524 阅读 · 0 评论 -
对线性回归,logistic回归和一般回归的认识
原文地址:http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方转载 2012-08-21 13:14:33 · 1147 阅读 · 0 评论 -
svm简介
目录概述补充使用手册重要论文展开概述补充SVM用于模式识别或回归时,SVM方法及其参数、核函数及其参数的选择,目前国际上还没有形成一个统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻或者利用软件包提供的交互检验功能进行寻优。 目前,LIBSVM拥有Java、Matlab、C#、Ruby、Python、R、Perl、Common L转载 2012-08-20 11:07:15 · 3346 阅读 · 0 评论 -
学习SVM
【转载请注明出处】http://www.cnblogs.com/jerrylead1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最转载 2012-08-20 11:02:45 · 4319 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
原文地址:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html赵 晨婷, 软件工程师, IBM赵晨婷,现就职于 IBM 中国软件开发中心 Web 2.0 开发小组,转载 2011-08-16 15:33:22 · 845 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
原文地址:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html赵 晨婷, 软件工程师, IBM赵晨婷,现就职于 IBM 中国软件开发中心 Web 2.0 开转载 2011-08-16 15:36:42 · 794 阅读 · 0 评论 -
常用神经网络模型及其应用评述
神经网络是由大量处理单元(神经元)互相连接而成的网络,实际上ANN并不完全模拟了生物的神经系统,而是一种抽象、简化和模拟。神经网络的信息处理通过神经元的相互作用来实现,知识与信息的存贮表现在网络元件互连的分布式结构与联系,神经网络的学习和识别各神经元连接权系数的动态演化过程。实践转载 2011-10-15 13:04:33 · 16305 阅读 · 0 评论 -
BM25算法浅析
BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a docum转载 2011-11-23 21:31:39 · 4637 阅读 · 0 评论 -
关于MMSEG分词算法
MMSEG是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。由于它的简易直观性,实现起来不是很复杂,运行速度也比较快。关于算法的原文,可以参 见:http://technology.chtsai.org/mmseg/总的来说现在的中文分词算法,大概可以笼统的分为两大类:一种基于词典的,一种是非基于词典转载 2012-06-11 15:26:01 · 2129 阅读 · 0 评论 -
MMSEG 中文分词算法
由于学习需要,我尝试翻译MMSEG算法,目前处于初稿状态,很许多地方的翻译仍不尽准确,在以下几天会加以修改。算法原文位于:http://technology.chtsai.org/mmseg/MMSEG :一个基于最大匹配算法的两种变体的中文单词识别系统发表日期: 1996-04-29更新日期: 1998-03-06文档更新: 2000-03-12许转载 2012-06-11 15:27:49 · 25805 阅读 · 0 评论 -
基于关联规则的推荐系统
首先,要了解关联规则的几个概念,定义N为总事务数,N(A)、N(B)分别为项集A、项集B出现的次数,N(AB)为项集A、项集B同时出现的次数,A、B为不相交项集A∩B=Ø,规则A→B表示由A推到B:支持度(Support):支持度是一种重要度量,支持度低的规则很可能是偶然现象,对推荐意义不大,另外支持度是数据剪枝的一个重要依据。置信度(Confidence):置信度,字面上转载 2012-06-27 22:52:48 · 11990 阅读 · 0 评论 -
simhash算法的原理
第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对转载 2012-08-06 11:46:21 · 1801 阅读 · 0 评论 -
文本去重之SimHash算法
说到文本相似性计算,大家首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网搜索引擎,收录了上百亿的网页,爬虫转载 2012-08-06 15:38:37 · 2360 阅读 · 0 评论 -
文本去重之MinHash算法
1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard index。转载 2012-08-06 14:58:04 · 19850 阅读 · 5 评论 -
Libsvm和Liblinear的使用经验谈
Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创建的,主要是应对large-scale的data classification,因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多,时间也少很多,而且在large scale data上的性转载 2012-08-20 11:00:23 · 28714 阅读 · 6 评论 -
似然函数Likelihood function
在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对转载 2014-02-21 10:58:26 · 30965 阅读 · 0 评论