算法
做工程师的IT猫
这个作者很懒,什么都没留下…
展开
-
文本分析系列——基于词库的文本是非判断计算
分类是我们经常遇到的问题,而“是”与“否”是最简单的分类命题,对于人类来说分类不难,例如:这支笔是不是钢笔?但对于机器来说就没有那么简单,以下提到的文本的是非判断是我开发过的项目中所使用的计算方法,本质上来说是朴素贝叶斯分类计算,只是在这个的基础上做了改良,用于文本(新闻)是否属于某城市的判断,正确率80%左右;简介 二分类是指所有的文本只存在两个分类的划分,例如“*原创 2015-09-29 22:39:48 · 898 阅读 · 0 评论 -
算法系列——向量空间模型计算模板选择
起源一个实际应用问题:假设有5篇文章(有图片文章,有纯文字文章),另外有一批显示模板(有若干带图模板、和不带图模板),如何选择最佳的显示模板。 首先想到的是决策树,通过一些关键“决策点”(有无图,有1张图、有2张图,有n图,有什么尺寸比例的图)进行判断选择,那好,动手画图,当决策点不断增加时候,发现决策树越来越大,而且每添加一个决策点(影响因素)都会导致决策树变化,而且决策树原创 2015-09-22 22:23:24 · 820 阅读 · 0 评论 -
文本分析系列——汇总
文本分析系列的文章是我在2012~2013年做某个项目的笔记和资料整理而成,所提到的算法/实现方式都最终应用于项目开发,而并非只是概念上,当然文本分析领域非常大也非常艰深(包括google在内的大公司都有深入的研究和产品),以下的文章资料仅限于文本的零和判断、关联判断、排重、分类:特征抽取文本分析系列——文本特征抽取文本分析系列——词语权重算法:TF-IDF算法文本判断原创 2015-09-15 17:24:52 · 436 阅读 · 0 评论 -
文本分析系列——基于相似哈希信息指纹的文本相似度算法
曾经使用这个算法进行文章查重的应用(日常排查100w篇左右),以下只是整个计算的原理和过程,计算的效率 更多是根据编程语言和架构决定,并不是本文关注的重点。计算原理: 布隆过滤原理,不多解释,看百科吧:http://baike.baidu.com/link?url=nAPkTtMtrb8kI-ZSare68S3SJ-p4sMs28RYerkgDzs2-0IBC4aEvMxFJ原创 2015-10-12 17:42:27 · 2965 阅读 · 1 评论