算法
文章平均质量分 76
gdp5211314
这个作者很懒,什么都没留下…
展开
-
Python源码中的算法分析 之 字符串匹配算法
字符串String类中最核心最重要的算法应该算就是字符串匹配算法了,String类中的find(),index(),count()以及split(),replace()等操作的基础都是字符串匹配。所有字符串匹配算法要处理的根本问题就是当出现不匹配字符时,怎样向后移动模式串。在后面我们将看到Python源码中的字符串匹配算法是基于Boyer-Moore算法,Horspool算法以及Sunda转载 2013-03-06 17:58:21 · 1502 阅读 · 0 评论 -
中文分词算法 之 基于词典的全切分算法(有点儿柱搜索的味道)
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题:1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。3、如何保证2中组合而成的句子包含了所有可能的词序?4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果?那么我们的分词方法称之为:基于词典的全切分算法。转载 2015-05-18 10:25:55 · 1494 阅读 · 0 评论 -
整数压缩算法
1 0~255的整数可以只用一个字节表示,256~65535的数据只需2个字节,65536~16777215需要3个字节,16777216以上4个字节int uncompressed[] = {...}byte compressed[] = {...}Encode Integers:int outPos = 0, previous = 0;for (int in转载 2015-05-05 11:23:50 · 5933 阅读 · 0 评论 -
语义分析的一些方法(一)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or imag转载 2015-02-13 17:32:12 · 853 阅读 · 0 评论 -
线性回归与梯度下降法
前言最近在看斯坦福的《机器学习》的公开课,这个课程是2009年的,有点老了,不过讲的还是很好的,廓清了一些我以前关于机器学习懵懂的地方。我的一位老师曾经说过:什么叫理解?理解就是你能把同一个事情用自己的语言表达出来,并且能让别人听得懂。本着这样的原则,同时也为了证明自己是”理解”的,于是决定打算在学习《机器学习》公开课的时候,写一些系列文章类巩固学到的东西。机器学习中的转载 2014-10-14 11:50:36 · 810 阅读 · 0 评论 -
深度学习概述:从感知机到深度网络
(注:本文译自一篇博客,作者行文较随意,我尽量按原意翻译,但作者所介绍的知识还是非常好的,包括例子的选择、理论的介绍都很到位,由浅入深,源文地址) 近些年来,人工智能领域又活跃起来,除了传统了学术圈外,Google、Microsoft、facebook等工业界优秀企业也纷纷成立相关研究团队,并取得了很多令人瞩目的成果。这要归功于社交网络用户产生的大量数据,这些数据大都是原始数据,需要被进转载 2014-05-15 10:08:53 · 1115 阅读 · 1 评论 -
利特尔法则
1内容英文名:Little's law(Little's result, theorem, lemma or formula)排队理论(Theory of Queues)中:在一个稳定的系统中,长时间观察到的平均顾客数量L,等于,长时间观察到的有效到达速率λ与平均每个顾客在系统中花费的时间之乘积,即L = λW。2概念利特尔法则由麻省理工大学斯隆商学院(MIT Sl转载 2013-11-12 14:31:05 · 2911 阅读 · 0 评论 -
数据科学家杨滔揭秘阿里内部数据运用
在国内的互联网企业中,阿里巴巴算是对数据非常重视的一个。作为电商巨头,依靠淘宝和支付宝平台,本身就可以获得大量数据,此外还通过收购(友盟、高德等),来丰富数据来源。 那么,这些数据具体是如何为企业运营服务,帮助业务部门提高收益的。或许可以从阿里巴巴数据科学家杨滔所分享的三个实际案例,来做些了解。 下面是杨滔分享的部分内容摘录: 我们团队的使命,第一个转载 2013-11-20 19:17:20 · 1120 阅读 · 0 评论 -
查询词聚类技术综述
搜索引擎中的查询词聚类技术有如下应用场景:应对搜索结果mismatch,即零少问题,尤其出现在长尾query中挖掘用户查询意图 对于现存查询词聚类技术,有2个基本的思路:Content Based, 即两个查询词包含相同的term。Session Based, 即两个查询词出现在相似用户的一系列行为中。 这2种方法各有优缺点,且各有各的适用场景。总体转载 2013-04-22 13:55:29 · 1509 阅读 · 1 评论 -
数据挖掘主要侧重解决的4类问题
一般来说,数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:1、分类问题分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。转载 2013-04-22 12:42:04 · 927 阅读 · 0 评论 -
一次寻找邻居单词列表的算法优化
朋友发来了一道题目进行讨论,题目的主体可以简化为如下:定义一个单词的邻居为,与其长度相同,有且仅有一个字母不同的其他单词。对于一个单词列表,计算所有单词的邻居列表。例如:单词son与sun为邻居,而与song不为邻居,因为它们长度不一样。读者朋友们,看完这道题目后,请先进行独立思考,然后再展开阅读。p.s. 本文将不包含具体代码。暴力法第一个想法很直转载 2015-06-08 13:44:10 · 803 阅读 · 0 评论