
搜索推荐-机器学习
研发之道
一个坚持把架构做到极致的技术人,热衷于互联网技术。混迹互联网十几年,热衷于高性能、高并发、分布式技术领域的研究。
展开
-
架构笔记
根据本文学习整理的架构图 贝壳找房 | 降本提效,贝壳搜索推荐架构统一之路原创 2020-09-29 20:19:56 · 326 阅读 · 0 评论 -
浅谈性能优化与稳定性保障实践
作者: 梁尔舒转载自:浅谈性能优化与稳定性保障实践序言良好的用户体验是业务持续增长的基础,而稳定性又是服务的基石。试想如果用户在商城购物时发现展位白屏,用户在搜索框搜索时,3秒后才返回结果,首先用户侧必然造成极差的用户体验,进而流失客户同时带来直接的企业损失。从产研侧,服务不稳定别说去“追求卓越“了,很可能会影响员工的绩效。在我们场景下,随着业务的迅猛发展:业务量的飞升、团队的快速扩张,对系统的稳定性和性能不断的提出新的挑战,记得团队内有段时间,几乎每次上线都存在大大小小的问题,稳定性问题是对团队.原创 2020-09-29 20:12:22 · 1210 阅读 · 0 评论 -
Elasticsearch 电商营销活动索引Mapping参考
原文:https://truemped.github.io/posts/search/campaigns-in-elasticsearch/Mapping定义:{ "mappings": { "properties": { "prices": { "type": "nested", "properties": { "p...原创 2020-04-20 15:03:24 · 607 阅读 · 0 评论 -
搜索、推荐、广告系统等人工智能优质技术资源最全整理
前沿文章目录前沿开源地址[算法学习资料: AI_Tutorial](https://github.com/cbamls/AI_Tutorial)开源相关LuceneSolrElasticLucidWorks中文分词大公司阿里百度京东美团点评携程去哪儿搜狗一号店待分类开发应用理论基础源码解读常见问题其他人工智能领域文集算法学习资料: AI_Tutorial人工智能、AI架构、搜索系统、推荐系统...原创 2020-03-13 18:16:10 · 11730 阅读 · 1 评论 -
NLP中文分词知识梳理
中文分词开源工具ik,jieba优缺点优点:使用开源通用语料,综合全面,但缺乏专业词汇缺点:词汇时效方面,新词不及时识别行业结论实践证明,基于统计学习的分词工具要优于基于人工规则的分词工具评测结果表明,未登录词所造成的分词精度下降至少比分词歧义大5倍以上实验结果证明,字标注统计学习方法能够大幅提高未登录词的识别率难点1清晰地界定中文词汇: 如“科教兴国”切词成【科教兴国】和【科教】,【兴国】都符合...原创 2020-02-06 16:33:18 · 631 阅读 · 0 评论 -
搜索,推荐,广告系统架构及算法技术资料大合集吐血整理——2020年终分享
算法学习资料: AI_Tutorial各大厂架构开发学习资源;精华机器学习,NLP,图像识别等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料吐血整理你还在为学习算法摸不着头脑么?你还在为技术调研各种Google么?AI的牛b吹不上去?盯紧了,这里就是你的2020女朋友~。本项目会持续关注AI落地的一些优质技术资料。大家也可以去网站投稿。算法学习资料: AI_Tutorial...原创 2020-01-03 16:42:18 · 25851 阅读 · 7 评论 -
Tensorflow SavedModel 模型的保存和加载
from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tffrom tensorflow.saved_model.signature_def_utils import predict_signature_deffrom tensorflow.saved_model import tag_c...原创 2019-12-25 18:35:44 · 2474 阅读 · 0 评论 -
搜索推荐系统中用户意图识别——查询理解知识体系
最近调研了下查询理解的相关知识体系分享个前段时间阿里对外分享的一个电商查询理解的PPT:【搜索推荐直播系列第三场】开放搜索行业智能搜索技术介绍-电商查询理解-20191105...原创 2019-11-26 16:18:41 · 2501 阅读 · 1 评论 -
AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记及资源在线阅读
http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html深度学习笔记目录第一门课 神经网络和深度学习(Neural Networks and Deep Learning)第一周:深度学习引言(Introduction to Deep Learning)1.1 欢迎(Welcome)1.2 什么是神经网络?(What is...转载 2018-07-17 10:45:51 · 5470 阅读 · 2 评论 -
AIQ |【学界】机器学习、数据科学 如何进阶成为大神?
转载请注明 AIQ - 最专业的机器学习大数据社区 http://www.6aiq.com AIQ 机器学习大数据 知乎专栏 点击关注 作者: @留德华叫兽 ,美国Clemson大学运筹学硕士,Ph.D. Candidate,后跳槽至欧盟玛丽居里博士项目,期间于意大利IBM Cplex实习半年,巴黎综合理工访问一季,现任德国海德堡大学交叉学科计算中心、组合优化实验...转载 2018-06-28 21:20:20 · 943 阅读 · 0 评论 -
Apache Storm - Core Concepts
@Source https://www.tutorialspoint.com/apache_storm/apache_storm_core_concepts.htmApache Storm 从一端实时读取原始数据流 , 经过一系列小处理单元(bolts), 在另一端输出被加工好的数据。 下图展示了其核心概念:TupleTuple 是Storm 主要的数据结构, 它是一系列元素的集合。默认的, T翻译 2017-08-23 15:46:38 · 477 阅读 · 0 评论 -
Google 重叠实验框架:更多,更好,更快地实验
转载自: http://www.6aiq.com/article/1548255866526IntroductionGoogle是一个数据驱动型公司,这意味着所有对用户的改动的发布,都要决策者以相应的经验数据作为依据。这些数据大部分是由在线流量上的实验产生的。在web的语境下,一个实验是由一股流量(比如,用户的请求)和在这股流量上进行的相对对比实验的修改组成的。修改包括用户可见的修改(比如,修...转载 2019-01-23 23:10:54 · 5992 阅读 · 2 评论 -
工作中组内遇到的elasticsearch使用上的踩坑总结
嵌套索引的坑场景: 一个spu doc下有多个内嵌的csu,csu内有上下架状态,前台操作某csu上下架,在商城界面看起来未生效。坑1: mysql binlog消息监控组件dbus 通知服务端B多台机器消息变更时,未考虑spu下csu消息的消费顺序性,导致同一spu的多个csu上下架变更消息被多个后端服务乱序消费方案: 重新定制dbus消息通知 的分发逻辑,采用spu的唯一标志分发,进而保...原创 2019-01-13 20:52:01 · 2819 阅读 · 0 评论 -
微软 AB/Testing EXP 实验管理平台
Conference Paper · May 2018 The Anatomy of a Large-Scale OnlineExperimentation Platform。因为工作负责和ABTest相关的事情,所以对ABTest系统理论与工程落地情况一直在调研,根据上面这篇论文,我们一起来学习下微软EXP系统的工程实现。摘要及其相关工作啥的废话略过,先放一张架构图:整个系统包含四部分:...原创 2019-05-16 02:36:50 · 2839 阅读 · 0 评论 -
通用搜索系统整体架构
上周梳理了下搜索流程,抽取了通用的流程,先有全貌,然后再对每个环节细化学习。原创 2019-07-29 16:53:41 · 1215 阅读 · 0 评论 -
有哪些比较好的机器学习人工智能技术社区推荐
AIQ - 全国最专业的机器学习大数据技术社区,是一个以机器学习,大数据,云计算,数据分析,数据挖掘,人工智能,区块链为主要学习方向的学习交流社区,在这里可以讨论各种当下比较火热的技术,分享大数据,机器学习算法等各种优质精华文章与教程资料,填补了机器学习技术社区宇宙级空白,分享学习心得。人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科,我把它们归纳为六个:(1)计算机视...原创 2018-04-04 10:37:19 · 8359 阅读 · 0 评论 -
回顾·神马搜索技术演进之路
转载自 DataFunTalk 公众号 http://www.6aiq.com/article/1535003242764前言国内搜索引擎大事记1998年,Google发布;2000年,百度发布;2004年,搜狗发布;2006年,搜搜发布;2010年,Google退出中国;2012年,360搜索发布;2013年,神马发布,搜搜并入搜狗,百度收购91;2017年,微信推出搜一搜。神...转载 2018-08-23 14:29:21 · 8374 阅读 · 0 评论 -
Scala 下划线(_) 用法汇总
导包时的通配符import java.util._类似Java的import java.util.*Scala类中成员变量初始化class Foo{ //String类型的默认值为null 不适合局部变量 var s: String = _}类型通配符Java的泛型系统有一个通配符类型,例如List<?>,任意的List类型都是List<?...原创 2019-01-08 15:26:20 · 1204 阅读 · 0 评论 -
牛顿法-梯度下降法一些文章整理
我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题“在一定成本下,如何使利润最大化”等。最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称。随着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现在学习的机器学习算法...原创 2018-01-26 00:27:54 · 5796 阅读 · 0 评论 -
牛顿-莱布尼茨公式证明
推导一:定义一个变上限积分函数,让函数获得增量,则对应的函数增量根据积分中值定理可得,,(ξ在x与x+Δx之间),所以,因为,所以,即所以即 推导二:我们用分转载 2018-01-26 00:28:43 · 27649 阅读 · 2 评论 -
通过简单例子来理解先验分布、后验分布、似然估计&&贝叶斯公式
这几个概念可以用“原因的可能性”和“结果的可能性”的“先后顺序”及“条件关系”来理解。下面举例:隔壁老王要去10公里外的一个地方办事,他可以选择走路,骑自行车或者开车,并花费了一定时间到达目的地。在这个事件中,可以把交通方式(走路、骑车或开车)认为是原因,花费的时间认为是结果。若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的,当然也有较小可能老王是个健身达人跑步过去的原创 2018-01-26 01:03:48 · 11397 阅读 · 0 评论 -
正态分布&&切比雪夫不等式
百度百科:https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/829892?fr=aladdin知乎:https://www.zhihu.com/question/27821324一维正态分布若随机变量 服从一个位置参数为 、尺度参数为 的概率分布,且其概率原创 2018-01-28 13:07:27 · 6033 阅读 · 0 评论 -
中心极限定理与大数定律
简单而言,大数定律讲的是样本均值收敛到总体均值(就是期望),像这个图一样:而中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布,就像这个图:其中黄色的是标准正态分布的密度函数。原创 2018-01-28 13:16:07 · 910 阅读 · 0 评论 -
Ax=b:秩与方程组可解性和解的结构
列空间与零空间: https://www.bilibili.com/video/av6240005/MIT 求解Ax=b: https://open.163.com/movie/2010/11/V/8/M6V0BQC4M_M6V2ABHV8.html秩可以理解为矩阵A列的线性组合所张成的空间维度数-列空间维度数本课讨论AX=b的解情况,根据教授的思路,A矩阵(m row X n col)经过化简可...原创 2018-03-08 20:01:25 · 7856 阅读 · 2 评论 -
线性相关性 基 维数
MIT: https://open.163.com/movie/2010/11/C/T/M6V0BQC4M_M6V2ACDCT.html1,线性相关性:(1) m×n矩阵A中,如果A的解空间中只有零向量,则n个向量线性无关;如果A的解空间中一定含有其他非零解,则n个向量线性相关(2) m×n矩阵A中,如果r=n,则n个向量线性无关;如果rn,则n个向量线性相关2,生成空间:一组向量生成向量空间的含...原创 2018-03-09 08:49:46 · 742 阅读 · 0 评论 -
信息检索常用的评价指标整理 MAP nDCG ERR F-measure Precision Recall
相关文献:learning to rank : https://en.wikipedia.org/wiki/Learning_to_rank#cite_note-13 MRR: https://en.wikipedia.org/wiki/Mean_reciprocal_rank Precision and Recall: https://en.wikipedia.org/wiki/Prec...原创 2018-03-10 16:36:49 · 2955 阅读 · 0 评论 -
thread "main" java.lang.NoSuchMethodError: org.apache.kafka.common.network.NetworkSend
org.apache.kafka.common.network.NetworkSend 是一个Kafka客户端库,kafka 0.9以前,首先初始化这个类。你确定在kafka-client客户端只有一个版本kafka-client jar 在classpath原创 2018-05-13 21:19:00 · 3200 阅读 · 0 评论 -
Elasticsearch 之 commit point | Segment | refresh | flush 索引分片内部原理
转载自: http://www.6aiq.com/article/1539308290695基本概念Segments in Lucene众所周知,Elasticsearch 存储的基本单元是shard, ES中一个Index 可能分为多个shard, 事实上每个shard 都是一个Lucence 的Index,并且每个Lucence Index 由多个Segment组成, 每个Segment...原创 2018-10-12 09:42:02 · 5534 阅读 · 0 评论 -
Spark性能调优总结
使用正确的 transformations操作虽然开发者达到某一目标,可以通过不同的transformations操作,但是有时候不同的姿势,性能差异非常明显。优化姿势的总体目标是尽可能少的产生shuffle, 和待被 shuffled data。因为shffule过程存在写盘和节点间网络IO的开销repartition , join, cogroup, and any of the *By o...原创 2019-01-09 17:55:27 · 1657 阅读 · 0 评论 -
Spark宽依赖 窄依赖 Job Stage Executor Task 总结
宽依赖与窄依赖窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关), map/filter和union相应的,宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用,子RDD...原创 2019-01-09 17:43:53 · 793 阅读 · 0 评论 -
向量的内积
1. 内积:设有n维向量 令 ,则称[x,y]为向量x与y的内积。2. 范数:称 为向量x的范数(或长度)。3. 单位向量:称 时的向量x为单位向量。4. 当 , 时,称 为向量x与y的夹角。5. 正交向量组:指一组两两正交的单位向量。6. 标准正交基:设n维向量 是向量空间V的一个基,如果原创 2018-01-21 21:07:20 · 11408 阅读 · 0 评论