算法
文章平均质量分 88
nickname_oo
做饭的程序员
展开
-
KMP算法
【KMP算法简介】 KMP算法是一种改进后的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。通过一个辅助函数实现跳过扫描不必要的目标串字符,以达到优化效果。 【传统字符串匹配算法的缺憾】 Bill认为,对于一种优化的算法,既要知道优化的细节,也更应该了转载 2014-11-17 17:25:52 · 567 阅读 · 0 评论 -
拼写纠错
斯坦福大学自然语言处理第五课“拼写纠错(Spelling Correction)”一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考转载 2015-07-23 15:30:47 · 3845 阅读 · 0 评论 -
维基百科简体中文语料的获取
转自 http://licstar.net/archives/262最近做实验需要较大规模的中文语料,很自然的就想到使用维基百科的中文数据。 使用维基百科做训练语料有很多好处:维基百科资源获取非常方便,有 Wiki Dump 可以直接下载,所有的最新备份都在里面。最近的一次备份是3月底,也就是5天前。相比之下,其他很多语料都需要用爬虫抓取,或者付费获得。转载 2015-07-23 15:42:17 · 1596 阅读 · 0 评论 -
深度学习word2vec笔记之算法篇
该文转自 http://www.52ml.net/16833.html?replytocom=121声明:1)该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵转载 2015-09-16 04:23:29 · 975 阅读 · 0 评论 -
word2vec中关于词向量的阐述
0. 词向量是什么 自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。 举个栗子, “话筒”表示为转载 2015-10-09 10:33:05 · 1384 阅读 · 0 评论 -
热词
每一天状态里的词去和前一天的状态作对比,从而提取出这一天里特有的词呢?这样一来,我们就能从某网的用户状态中提取出每日热点了!从手里的数据规模看,这是完全有可能的。我选了 12 个比较具有代表性的词,并列出了它们在 2011 年 12 月 13 日的用户状态中出现的频数(左列的数),以及 2011 年 12 月 14 日的用户状态中出现的频数(右列的数):下雪3392转载 2016-01-11 16:48:30 · 1219 阅读 · 0 评论 -
新词发现初研究
60%的分词错误是由新词导致的一、新词的概念 目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。通常,未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括 (a转载 2016-01-05 16:39:27 · 5660 阅读 · 1 评论 -
词自动纠错
对于中文搜索引擎来说输入自动检查纠错功能是指用户在输入关键词进行搜索之后如果搜索引擎在返回结果中计算出与此关键词相似的另一形式(如词组中出现同音不同字或者某一错别字现象)得到大量的搜索结果用户将会在搜索结果页面看到系统提供的推测到的关键词项。研究中引入了关键词加权计算方法将初步统计语言模型得出的纠错检查结果再次计算比较最终得出优化的纠错结果。建立查询词词库,对查询转载 2016-01-12 14:30:15 · 7051 阅读 · 3 评论 -
tf-idf、逻辑回归和SVM on spark
1、tf-idfIDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这原创 2017-02-22 17:08:31 · 2309 阅读 · 0 评论 -
问答的搜索展示
看了一篇 关于网页Title优化技巧 ,先来和大家来一起看看他的描述。网页的元描述Description 怎样写才算是一个高质量的描述。首先我们先来看一下什么是 网页的 “描述”,在搜索引擎搜索的结果又是怎样的展现方式,图示: 我用红色的方框圈住的,就是百度搜索结果展示出来的对应网页的元描述即 Meta标签 Description属性的具体内容。 那么元描述在哪转载 2015-06-15 18:05:29 · 808 阅读 · 0 评论 -
怎么判断英文网站是否做过谷歌优化?
1、title、keyword、Description是否做过处理。我们都知道标题是最容易被搜索引擎抓取的,如果我们将标题设置为我们要优化的主关键词,在整个优化过程中会起到直观重要的作用。没有做过优化的网站keywrod的布局杂乱无章,密度层次不齐,稍微有经验的SEOER在keywords设置上会遵循一定的规律,会将关键词密度控制在3%-7%之间。对于谷歌来说Description Tag有比没有转载 2015-06-15 17:53:04 · 1197 阅读 · 0 评论 -
淘宝app搜索排名优化技巧
现在手机淘宝的用户越来越多,消费者们也开始习惯使用手机购物,淘宝今年也将加大对手机淘宝的扶持,手机淘宝的流量将会不断的增长,作为卖家的我们一定要做好手机端的搜索优化,提高店铺的流量。在现在千人千面的环境下怎样去做好无线淘宝的搜索优化呢?下面就和大家说说有哪些因素是影响无线端的排名的。一、个性化影响排名:1. 历史个性化:曾经浏览过,曾经购买过,曾经收藏过。2. 买家号信息:转载 2015-06-15 17:48:41 · 2105 阅读 · 0 评论 -
二维码的生成细节和原理
本文转自http://coolshell.cn/articles/10590.html二维码又称QR Code,QR全称Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的Bar Code条形码能存更多的信息,也能表示更多的数据类型:比如:字符,数字,日文,中文等等。这两天学习了一下二维码图片生成的相关细节,觉得这个玩意就是一个密码算法,在此写一这篇文章转载 2015-03-25 17:03:51 · 669 阅读 · 0 评论 -
短址服务实现的一些算法
http://itindex.net/detail/51694http://blog.csdn.net/beiyeqingteng/article/details/7706010http://iteye.blog.163.com/blog/static/1863080962012111223141936转载 2015-03-09 16:47:22 · 370 阅读 · 0 评论 -
计算两个文档的相似度
出处“我爱自然语言处理”:www.52nlp.cn前几天,我发布了一个和在线教育相关的网站:课程图谱,这个网站的目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课,特别是目前最火的Coursera,Udacity等公开课平台上的课程。在发布之前,遇到的一个问题是如何找到两个相关的公开课,最早的计划是通过用户对课程的关注和用户对用户的关注来做推荐,譬如“你关注转载 2015-06-08 16:28:04 · 4312 阅读 · 0 评论 -
TF-IDF余弦相似性找出相似文章
有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子A:我喜欢看电视,不喜欢看电影。 句子B:我不喜欢看电视转载 2015-06-08 16:50:11 · 495 阅读 · 0 评论 -
词干提取(stemming)与词形还原(lemmatization)
在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)。转载 2015-06-08 16:14:28 · 10241 阅读 · 0 评论 -
TF-IDF自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用1转载 2015-06-08 16:47:45 · 2098 阅读 · 0 评论 -
自动摘要
有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读转载 2015-06-08 17:00:53 · 1201 阅读 · 0 评论 -
朴素贝叶斯分类器的应用
一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农夫 过敏 头痛 建筑工人 脑震荡 头痛 建筑工人 感冒 打喷嚏 教师 感冒 头痛 教师 脑震荡现在又来了第七个转载 2015-06-09 11:42:05 · 849 阅读 · 0 评论 -
相似图片搜索的原理
Google有"相似图片搜索"正式放上了首页。你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后,Google返回如下结果:类似的"相似图片搜索引擎"还有不少转载 2015-06-09 09:41:39 · 479 阅读 · 0 评论 -
Python兵器谱
转自 “我爱自然语言处理”:www.52nlp.cn汇总整理一套Python网页爬虫,文本处理,科学计算,机器学习和数据挖掘的兵器谱。一、Python网页爬虫工具集一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据,这个时候,爬虫就显得格外重要了,幸好,Python提转载 2015-06-10 13:28:41 · 491 阅读 · 0 评论 -
如何降低网站的跳出率?
网站的跳出率直接反应了一个网站的受用户欢迎程度。影响着用户体验,搜索引擎是在模拟人的思维,用户体验好的网站,搜索引擎也喜欢,因此我们也可以理解成为,网站的跳出率直接影响到我们网站关键词的排名。那么,如何降低网站的跳出率呢?1、网站的访问速度 (我们用户正常浏览网页,不可能等太长的时间,最好控制在3-5秒要能打开一个网页。据调查用户访问一个页面等待的时间一般是不会超过10秒,如果您的转载 2015-06-15 17:56:08 · 539 阅读 · 0 评论 -
验证码识别
其实,验证码识别其实就是用好用好tesseract-ocr,下面我先说下步骤:1、去https://github.com/tesseract-ocr/tesseract/wiki 下载tesseract-ocr,然后安装一下;2、代码中pom中加入:<dependency> <groupId>net.sourceforge.tess4j</groupId>...原创 2018-05-15 15:44:23 · 726 阅读 · 0 评论