- 博客(10)
- 资源 (13)
- 收藏
- 关注
原创 大规模文本相似性计算1(LSH理论部分)
最近在做互联网热点发现时需要将全网一段时间内每一篇文章和它所有相关的报道聚集在一起形成一个事件,再对事件下报道的数量进行汇总和排序得到不同维度的热点事件。 其中相关的报道定义为相似度较高的文章,相似度较高指的是文章间的关键词重合度超过一定阈值或者事件以及事件属性相似度超过一定阈值。input :60岁的穆罕默德在贾巴里亚难民营附近的家 中被火箭弹射杀关键词:穆罕默德:0.6198;贾巴里亚:0.5796;难民营:0.2304;火箭弹:0.2012;射杀:0.1718;附近:0.1701;
2021-02-20 17:19:01 935 3
原创 推荐重排算法之MMR
MMR算法目的是减少排序结果的冗余,同时保证结果的相关性。最早应用于文本摘要提取和信息检索等领域。在推荐场景下体现在,给用户推荐相关商品的同时,保证推荐结果的多样性,即排序结果存在着相关性与多样性的权衡。MMR算法原理 MMR算法将排序结果的相关性与多样性综合于下列公式中:Q : 用户;d : 推荐结果集合;C : R 中已被选中集合;λ\lambdaλ`: 权重系数,调节推...
2020-03-30 14:41:46 2803 2
原创 t检验、t分布、t值
1. t检验的历史 阿瑟·健力士公司(Arthur Guinness Son Co.)是一家由阿瑟·健力士(Arthur Guinness)于1759年在爱尔兰都柏林建立的一家酿酒公司: 不过它最出名的却不是啤酒,而是《吉尼斯世界纪录大全》: 1951年11月10日,健力士酒厂的董事休·比佛爵士(Sir Hugh Beaver)在爱尔兰韦克斯福德郡打猎时,因为没打中金鸻,于是和同行...
2019-06-06 17:08:38 13115 1
原创 假设检验初步
最近研究AB测试的时候,研究了一下假设检验的内容,准备尝试一下,用大白话叙述一遍统计推断中最基础的东西(假设检验、P 值、……),算是把这段时间的阅读和思考做个梳理(东西不难,思考侧重在如何表述和展示)。这次打算用一种 “迂回的” 表达方式,比如,本文从我们的日常逻辑推理开始说起。0. 普通逻辑 复习一下普通逻辑的基本思路。假设以下陈述为真:你打了某种疫苗 P,就不会得某种流行病 Q...
2018-11-12 17:41:36 532
原创 通俗理解泊松分布
1.甜在心馒头店 公司楼下有家馒头店: 每天早上六点到十点营业,生意挺好,就是发愁一个事情,应该准备多少个馒头才能既不浪费又能充分供应? 老板统计了一周每日卖出的馒头(为了方便计算和讲解,缩小了数据): 均值为:Xˉ=3+7+4+6+55=5\bar{X}=\frac{3+7+4+6+5}{5}=5Xˉ=53+7+4+6+5=5 按道理讲均值是不错的选择,但是如果每...
2018-11-02 12:01:20 37584 11
原创 6.3-FP-growth
FP-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-growth算法的速度要比Apriori算法快。 FP-growth算法发现频繁项集的基本过程如下: - 构建FP树 - 从FP树中挖掘频繁项集 ...
2018-07-30 14:35:23 1407
原创 6.2-Apriori算法
关联分析 许多商业企业在日复一日的运营中积聚了大量的交易数据。例如,超市的收银台每天都收集大量的顾客购物数据。例如,下表给出了一个这种数据集的例子,我们通常称其为购物篮交易(market basket transaction)。表中每一行对应一个交易,包含一个唯一标识TID和特定顾客购买的商品集合。零售商对分析这些数据很感兴趣,以便了解其顾客的购买行为。可以使用这种有价值的信息来支持各种商业...
2018-07-26 23:57:50 661
原创 4.1-EM算法
适用场景 EM算法用于估计含有隐变量的概率模型参数的极大似然估计,或者极大后验概率估计。当概率模型既含有观测值,又含有隐变量或潜在变量时,就可以使用EM算法来求解概率模型的参数。当概率模型只含有观测值时,直接使用极大似然估计法,或者贝叶斯估计法估计模型参数就可以了。 举例说明 这是一个抛硬币的例子,H表示正面向上,T表示反面向上,参数θθ\theta表示正面朝上的概率...
2018-07-25 16:48:14 224
原创 7.1-PCA
概述 PCA有两种通俗易懂的解: 1. 是最大化投影后数据的方差(让数据更分散); 2. 是最小化投影造成的损失。 这两个思路最后都能推导出同样的结果。 下图应该是对PCA第二种解释展示得最好的一张图片了. 原理 在理解特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加,算法学习需要的样本数量呈指数级增加。有些应用中,遇到这...
2018-06-19 19:17:48 451
快学Scala 中文版带目录
2018-01-02
从Paxos到Zookeeper分布式一致性原理与实践.pdf
2018-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人