人工智能
文章平均质量分 73
快乐的霖霖
一个人默默的奋斗者
展开
-
文本相似度算法
文本相似度算法1.信息检索中的重要发明TF-IDF1.1 TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2 IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式原创 2013-01-13 15:13:57 · 3184 阅读 · 0 评论 -
机器学习经典书籍
机器学习经典书籍入门书单《数学之美》 PDF作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。《Programming Collective Intelligence》(《集体智慧编程》)PDF作者Toby Segaran也是《BeautifulData : The Stories Behind E原创 2014-03-11 19:45:26 · 1465 阅读 · 1 评论 -
推荐系统架构
推荐系统架构 实际推荐系统通常采用多种推荐算法,并根据用户的实时行为反馈调整用户的特征向量(特征的加权系数),进而融合各个推荐算法的推荐结果,在此基础上过滤不要的推荐项,最后结合用户使用场景调整推荐结果排名,给出最终推荐结果。 基于不同特征的推荐算法经常采用定期计算、定期更新特征物品推荐表,比如基于Item的相似度特征,可原创 2013-01-20 16:42:44 · 2475 阅读 · 0 评论 -
浅谈语义主题计算
浅谈语义主题计算 摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的原创 2013-01-21 08:50:09 · 1196 阅读 · 0 评论 -
六度空间理论
六度空间理论什么是六度空间理论(Six Degrees of Separation),它是数学领域的一个猜想,名为Six Degrees of Separation,中文翻译包括以下几种: 六度空间理论、六度分隔理论、六度分割理论或叫作小世界理论等。 六度空间理论指出:你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。这就是六度空原创 2013-01-16 21:43:38 · 9095 阅读 · 0 评论 -
Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析
Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析 变量说明:Dirichlet Allocation(LDA)主题模型算法实现及源码解析" title="Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析" style="margin:0px; padding:0px; border:0px; l原创 2013-01-15 16:54:50 · 3349 阅读 · 0 评论 -
KL散度(Kullback-Leibler_divergence)
KL散度(Kullback-Leibler_divergence)一. 概念KL-divergence,俗称KL距离,常用来衡量两个概率分布的距离。根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:原创 2013-01-15 16:31:12 · 8871 阅读 · 0 评论 -
LDA(Latent Dirichlet Allocation)主题模型算法
LDA(Latent Dirichlet Allocation)主题模型算法 LDA整体流程先定义一些字母的含义:文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以原创 2013-01-15 16:56:38 · 2058 阅读 · 0 评论 -
Latent Dirichlet Allocation(LDA)主题模型理论
Latent Dirichlet Allocation(LDA)主题模型理论LDA是给文本建模的一种方法,属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成的文章。通过对文本的建模,可以对文本进行主题分类,判断相似度等。LDA通过将文本映射到主题空间,即认为一篇文章有若干主题随机组成,从而获得文本间的关系。LDA模型有一个前提:bag o原创 2013-01-15 16:52:29 · 2523 阅读 · 0 评论 -
深度学习初体验
深度学习初体验1. 偏差 1)首先 Error(误差) = Bias(偏差) + Variance(方差)Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。2. 感知器和激活函数 详见:https://yq.aliyun.com/articl...原创 2018-02-21 11:57:19 · 707 阅读 · 0 评论