- 博客(117)
- 收藏
- 关注
原创 穷人的语义处理工具箱之一:语义版Jaccard
如果对工业界里的机器学习(ML)从业者进行阶级划分的话,划线标准不是你用的算法的学名听起来多酷炫,无论你手里抡着的是最潮的深度高达1000层的深度学习核炸弹,还是听起来有点掉渣的大刀长矛朴素贝叶斯,如果没有大量数据,尤其是能跑监督学习算法的带标签训练数据,你就是ML界标准的底层渣男渣女或者渣娘炮。再加上计算资源,如果贵公司有上千台GPU服务器集群可供阁下驱使,外加十几火车皮的训练数据,那你就可能成为ML界的新贵、大数据处理领域的马云。
2016-01-06 19:22:09 9160 13
原创 深度学习与自然语言处理之五:从RNN到LSTM
/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 (想更系统地学习深度学习知识?请参考:深度学习枕边书)大纲如下:1.RNN2.LSTM...
2015-12-30 19:01:16 59034 2
原创 利用卷积神经网络(CNN)构造社区问答系统
问答社区算是一类已经比较成熟的互联网应用了,国外的比如Quora、StackOverflow,国内的比如老派的百度知道,新一代的知乎,都算是代表性的社交类问答社区。问答社区本质上就是个人肉知识库,通过一段时间的积累,会累积相当多以<问题,答案>方式存在的知识。
2015-12-21 20:25:21 20956 15
原创 图数据库之Pregel
节选自《大数据日知录:架构与算法》十四章,书籍目录在此, Pregel是Google提出的大规模分布式图计算平台,专门用来解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。
2014-10-25 09:04:06 17683 1
原创 大数据图数据库之离线挖掘计算模型
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ author: 张俊林 节选自《大数据日知录:架构与算法》十四章,书籍目录在此 对于离线挖掘类图计算而言,目前已经涌现出众多各方面表现优秀而各具特点的实际系统,典型的比如Pregel、Giraph、Hama、PowerG
2014-10-08 19:51:30 8202 1
原创 大数据图数据库之MapReduce用于图计算
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ CopyMiddle: 张俊林 节选自《大数据日知录:架构与算法》十四章,书籍目录在此1.使用Mapreduce进行图计算 使用MapReduce框架来针对大规模图数据进行计算的研究工作相对较少,这主
2014-09-23 19:00:39 12905
原创 大数据图数据库之数据分片
节选自《大数据日知录:架构与算法》十四章,书籍目录在此 对于海量待挖掘数据,在分布式计算环境下,首先面临的问题就是如何将数据比较均匀地分配到不同的服务器上。对于非图数据来说,这个问题解决起来往往比较直观,因为记录之间独立无关联,所以对数据切分算法没有特别约束,只要机器负载尽可能均衡即可。由于图数据记录之间的强耦合性,如果数据分片不合理,不仅会造成机器之间负载不均衡,还会大量增加机器之
2014-09-20 08:16:53 9683 1
原创 大数据图数据库之TAO数据库
节选自《大数据日知录:架构与算法》十四章14.1.2 TAO图数据库 Facebook是目前世界上最著名的社交网站,如果从数据抽象的角度来看,Facebook的社交图不仅包括好友之间的关系,还包括人与实体以及实体与实体之间的关系,每个用户、每个页面、每张图片、每个应用、每个地点以及每个评论都可以作为独立的实体,用户喜欢某个页面则建立了用户和页面之间的关系,用
2014-09-17 20:08:32 6993 1
原创 《大数据日知录:架构与算法》前言
《大数据日知录:架构与算法》前言像移动互联网、O2O、可穿戴设备等概念一样,“大数据”从甫一提出到飓风般席卷并风靡全球,从最初的技术名词到形成渗透各行各业的社会现象,所耗时间仅几年而已,其兴也勃焉。那么,大数据是否会像很多曾经火热现在已难觅踪迹的流行概念一样,将来某日,人们静心抬眼,发现风已去而水波不兴,徒留夕阳下波光粼粼的涟漪,让人不禁哀叹其亡也忽焉?本书的背景
2014-09-16 09:24:30 4605 1
原创 HipHop算法:利用微博互动关系挖掘社交圈
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ CopyMiddle: 张俊林 TimeStamp:2012年3 月 在微博环境下,如何自动挖掘某个微博用户的社交圈子或者兴趣圈子是个很基础且重要的问题。如果能够对于
2013-06-29 10:15:42 11109 1
原创 文本摘要技术调研
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 文本摘要技术调研 CopyMiddle: 张俊林 TimeStamp:2010 年9 月 一.文本
2012-12-18 10:05:26 10582 1
原创 搜索引擎反作弊之:整体技术思路
本文节选自《这就是搜索引擎:核心技术详解》第八章 如上所述,目前搜索引擎作弊手段五花八门,层出不穷,作为应对方的搜索引擎,也相应调整技术思路,不断有针对性地提出反作弊的技术方案,所以如果整理反作弊技术方案,会发现技术方法很多,理清思路不易。 尽管如此,如果对大多数反作弊技术深入分析,会发现在整体技术思路上还是有规律可循。从基本的思路角度,可以将反作弊手段大致划分为以下三种:
2012-03-30 22:05:19 12406 2
原创 搜索引擎反作弊之:链接作弊与隐藏作弊
本文节选自《这就是搜索引擎:核心技术详解》第八章8.2 链接作弊 所谓“链接作弊”,是网站拥有者考虑到搜索引擎排名中利用了“链接分析”技术,所以通过操纵页面之间的链接关系,或者操纵页面之间的链接锚文字,以此来增加链接排序因子的得分,并影响搜索结果排名的作弊方法。常见的链接作弊方法众多,此节简述几种比较流行的作弊方法。 1.链接农场(Link Farm) 为了
2012-03-27 22:48:46 7005
原创 搜索引擎反作弊之内容作弊
本文节选自《这就是搜索引擎:核心技术详解》第八章 网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验
2012-03-24 08:53:04 12863 1
原创 搜索引擎索引之如何更新索引
本文节选自《这就是搜索引擎:核心技术详解》第三章 动态索引通过在内存中维护临时索引,可以实现对动态文档和实时搜索的支持。但是服务器内存总是有限的,随着新加入系统的文档越来越多,临时索引消耗的内存也会随之增加。当最初分配的内存将被使用完时,要考虑将临时索引的内容更新到磁盘索引中,以释放内存空间来容纳后续的新进文档,此时要考虑合理有效的索引更新策略。常用的索引更新策略有四种:完全重
2012-03-21 22:13:59 8154 2
原创 搜索引擎索引之如何建立索引
本文节选自《这就是搜索引擎:核心技术详解》第三章3.4建立索引 正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。 3.4.1两遍文档遍历法(2-Pass In-Memory Inversion) 顾名思义,此种方法需要对文档
2012-02-27 21:27:52 29409 7
原创 搜索引擎索引之索引基础
本文节选自《这就是搜索引擎:核心技术详解》第三章 本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。 3.1.1单词—文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。
2012-02-13 22:00:10 16511 8
原创 搜索引擎链接算法之:HITS算法解析
本文节选自《这就是搜索引擎:核心技术详解》第六章 HITS算法也是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。6.4.1 Hub页面与Authority页面 Hub页面和Authority页面是HITS算法最基本的两个定义。所谓“Authority”页面,是指与某个领域或者某个
2012-02-06 21:25:00 16811 2
原创 大话主题敏感PageRank
本文节选自《这就是搜索引擎:核心技术详解》第六章 主题敏感PageRank是PageRank算法的改进版本,该算法已被Google使用在个性化搜索服务中。6.6.1 主题敏感PageRank与PageRank的差异 PageRank算法基本遵循前面章节提到的“随机游走模型”,即用户在浏览某个网页时,如果希望跳转到其它页面,则随机选择本网页包含的某个链接,
2012-01-10 22:04:26 8183 1
原创 大话SALSA算法
本文节选自《这就是搜索引擎:核心技术详解》第六章 SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景。由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明,SALSA的搜索效果也都
2011-12-21 21:33:36 8590 2
原创 自然语言处理中的模式(模式1.概率化模式)
在自然语言处理中,歧义是非常容易出现的问题,无论是在分词,句法,语义各个层面都会面临歧义的问题,所谓歧义代表了对于一个输入有若干种输出,那么此时选择哪个作为正确输出就成为了一个问题。概率的引入为此提供了一个直观的解决方案,即选择概率值最大的作为正确的结果。
2010-08-12 15:33:00 12901 24
原创 自然语言处理中的模式(模式0:模式无处不在模式)
回到自然语言处理研究中的模式上来,自然语言处理相关的国际会议有ACL,COLING,EMENP等等,如果你经常跟踪会议论文并整理子领域的研究进展脉络的话,会发现在这个领域的研究中一样存在着固定的研究模式,其子领域的发展是有路径可循甚至是可以预测其发展方向的。举个比较明显的子领域,比如统计机器翻译,从最初的单词对的翻译加上顺序调整,到扩展为短语对的翻译加上顺序调整,再到目前比较热的字符串到树结构的映射,树结构之间的映射等,其发展脉络非常清楚,这种走向其实也是研究模式的一种具体表现,如果是有经验的研究人员是很容
2010-07-30 17:13:00 7634 6
原创 百度新闻后台逻辑流程分析
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 百度新闻后台逻辑流程分析 CopyMiddle:张俊林 TimeStamp:2008年1月9日 今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细
2008-01-09 18:53:00 12040 5
原创 从选秀策略看市场测试
从选秀策略看市场测试 CopyMiddle:张俊林 Timestamp:2007年8月 最近两年电视选秀节目成为了游荡在中国上空的幽灵,而把这个幽灵放出来的正是家住湖南的芒果台。其实这类节目的火爆也是顺理成章的,打个比方来
2007-08-23 21:45:00 4345 1
原创 搜索2.0:利用用户点击记录改善搜索结果
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索2.0:利用用户点击记录改善搜索结果 Author:张俊林 timestamp:2007年7月 现在是WEB2.0时代了(据真实传言好像已经快4.0了,比微软升级
2007-07-24 21:19:00 6266 2
原创 新知客:现代“买椟还珠”故事
新知客:现代“买椟还珠”故事 TimeStamp:2007/7 1.现代“买椟还珠”故事 新知客的前身好像叫探索发现>,是天津一家出版社出的,定位和现在的新发现>类似,没改版前我是追着买但是往往买不到,因为销售终端很少。自从改名改版以来,杂志内容越来越无法恭维,其
2007-07-04 21:32:00 6189 2
原创 BSP细分时代即将来临
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ author:张俊林 timestamp:2007/6 1.BSP细分的可能性 首先我自己判断一个市场是否成熟的
2007-06-12 17:59:00 5047 1
原创 Google小组研发模式分析
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ Google小组研发模式分析 author:张俊林 timestamp
2007-04-30 13:45:00 13962 5
翻译 视频搜索时代到来了吗?[翻译]
视频搜索时代到来了吗? translator:张俊林 timestamp:2007/4 尽管很令人伤感但是这是真实的--我们可以通过衡量某个市场的可被操纵程度来评估任何市场的成熟程度. 根据这一衡量标准,从华尔街周刊的"作弊手段正在侵蚀视频站点并误导用户"一文可以推断: 视频搜索时代已经到来
2007-04-22 14:59:00 4028 1
原创 未来的电视是什么样子?
未来的电视是什么样子? 假设现在是2030年,那么此时的电视是什么样子呢?电视的外观: 1.两级分化 未来的电视外观将走向两个极端:一个极端是越来越大。这个是很容易看到的趋势,现有电视也是遵循这这个思路在发展。一个极端是越来越小。未来电视的另外一种外表可能是一副眼镜,你带上它就可以收看了;就像周星星在国产007里面示范
2007-04-22 14:17:00 7350 4
原创 互联网大鳄的成长模式
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 互联网大鳄的成长模式 author:张俊林
2007-04-22 09:33:00 3835 1
原创 月季流水账
最近比较忙,好久没有博了,先花几天把我博客周围的荒草拔掉先..,然后唠叨唠叨最近两个月来印象比较深的值得一记的东西和想法。0.先详细地谈谈工作 @3¥#%……&*&……%¥##@¥%……&&*(((……()&……%¥#damn(*&^%$%F*U*C*K&……Why程序调试not通过????^%$#@*&^%$此处省去5千万字%¥#…………&(,总之,这是有成效的一个月,成功的一个月,胜
2007-02-11 22:08:00 3232 1
原创 博客搜索引擎索引博文数量分析与评估
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 博客搜索引擎索引博文数量分析与评估 CopyMiddle:张俊林 TimeStamp:2007/1/25 我一直希望能够通过一种手段
2007-01-25 16:02:00 3424
原创 搜索引擎CACHE策略研究
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎CACHE策略研究 张俊林 timestamp:2005年10月 一.关于搜索引擎用户查询得出的结论:(1) 用户查询有很大比例的重复性。有
2007-01-12 17:09:00 6109 1
原创 现代的时代精神是什么?
现代的时代精神是什么? 张俊林 timestamp:2006/12/4 后现代思潮下的极端追求个性化导致无归属感? 功利主义与现实主义导致及时行乐思想蔓延? 缺乏信仰导致“金钱崇拜”以及“权力崇拜”? 传统文化缺失,新文化的囫囵吞枣式的理
2006-12-04 22:25:00 5485 1
原创 睡眠与做梦
睡眠与做梦 张俊林 timestamp:2006/12/4 1.人为什么一定要睡觉呢?为什么一定要做梦呢? 2. 梦分解为两个因素:物理刺激因素和压抑欲望浮出理智控制因素. 物理刺激导致相关大脑皮层脑细胞活跃带动附近区域脑细胞, 比如脚裸露在寒
2006-12-04 21:57:00 3939
原创 百度的索引真的比雅虎多么?
百度的索引真的比雅虎多么? timestamp:2006/12/3 看到一篇文章“[数据统计] 搜索引擎索引库:百度大于雅虎中国 之一” http:/
2006-12-04 15:31:00 2958 1
原创 MAP/REDUCE:Google和Nutch实现异同及其他
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 张俊林 timestamp:2006年11月26日设计要素nutch包含以下几个部分: 辅助类 Log:记载运行信息; Time:
2006-11-26 17:50:00 3697
原创 自然语言处理领域的两种创新观念
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 自然语言处理领域的两种创新观念 张俊林 timestamp:2006年1
2006-11-26 16:52:00 6887 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人