![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习之旅
五山小新新
希望每天6点下班,然后逛超市,买水果,买牛奶,看美女。
展开
-
基于DAG简单的任务调度
1. 背景DAG:是一个无回路的有向图。一个经典的应用是用于任务的调度,用来定义任务的依赖关系和流向, 根据整个DAG的定义,可以从中获取哪个任务该先执行,哪个任务后执行。哪些步骤是可以并行执行的。2. DAG的定义这里阐述一个简单的应用例子。推荐系统的通常需要进行多队列召回,然后进行粗排、精排、混排。可以将这些操作抽象成不同类型的rpc调用,在数据召回之后,还可以抽象出来两种动作,包括一种...原创 2020-01-11 01:16:56 · 3683 阅读 · 0 评论 -
tensorflow C++ api
1. 背景TensorFlow是一个从离线到在线一条龙实现的机器学习库。 一般来说,离线算法一般采用Python进行开发,并进行训练,以及得到模型结果, 而在线部分,采用的则是C++来实现,主要考虑到在线预测要一定的性能要求。这里可以采用TensorFlow serving来实现。但是一般来说,为了更好地和内部rpc框架融合,需要将TensorFlow的库,植入到内部的rpc的框架里面。本文主...原创 2019-11-19 23:47:13 · 1222 阅读 · 0 评论 -
威尔逊得分 Wilson Score 排序算法
https://www.jianshu.com/p/4d2b45918958原创 2019-06-18 00:29:36 · 3059 阅读 · 0 评论 -
Flink 入门
Flink 目前最流行的流式引擎,主要是用来替换jstorm和spark streaming的, 实现对实时数据流的处理,很多实现和spark的操作非常相像。1. 源码安装http://archive.apache.org/dist/flink/flink-1.8.0/ tar -zxf flink-1.7.0-bin-hadoop28-scala_2.11.tgz ./bin/...原创 2019-06-25 23:37:45 · 297 阅读 · 0 评论 -
Faiss 入门
1. Faiss 原理单元-探测(Cell-probe) 方法以失去保证以找到最近邻居为代价来加速该过程的典型方法是采用诸如k均值的分区技术。 相应的算法有时被称为 cell-probe 方法:我们使用基于多探测的基于分区的方法(可以联想到best-bin KD-tree的一种变体)。特征空间被划分为 ncells 个单元格。由于散列函数(在k均值的情况下,对最靠近查询的质心的分配)...原创 2019-07-01 00:37:30 · 4476 阅读 · 0 评论 -
向量检索的搜索引擎实现
1. 基本原理与推荐系统不同的是,搜索系统比较重要的用户特征是query,信息检索的过程则是根据query,给用户返回doc集合。传统的检索系统,对文本进行切词, 然后每个词下面会生成一个倒排索引。 query查询时,则是对query进行分词,然后到对应的词进行直接召回即可实现,数据集合的返回。有了数据集之后,如何给doc排序是一个比较关键的问题,毕竟人的精力是比较有限的,在浩渺的知识大海里...原创 2019-07-16 01:13:17 · 6064 阅读 · 0 评论 -
NDCG原理和实现
1. 原理对于搜索引擎,本质是用户搜一个query, 引擎返回一个结果列表,那么如何衡量这个结果列表的好坏?我们希望把最相关的结果放到排名最靠前的位置,因为大部分用户都是从上往下阅读的, 那么最相关的前面可以最大程度减少用户的阅读时间。我们希望整个列表的结果尽可能的和query相关。第一个条件的满足是首要的,而第二个条件的加入是保证整体结果质量,而这两个条件都体现在了NDCG里...原创 2019-08-03 00:46:45 · 3316 阅读 · 3 评论 -
深度文本匹配
1. 传统的文本匹配最近在了解文本匹配相关一些实现和算法。在信息检索系统里面,如何厘清文本的相关性,是一个非常关键的问题。所谓的相关性,主要包括两个方面, 一个方面是文本相关性,还有一个语义的相关性。在经典的模型里面,比较常见的做法是向量空间模型(vector space model)。向量空间模型, 原理则是将query和doc的文本映射成同一个数字向量空间,然后通过consine或者Jac...原创 2019-07-31 08:13:15 · 363 阅读 · 0 评论 -
搜索排序之线性模型
1. 背景搜索排序最简单的模型算法是point wise,这里简单展示使用简单的线性模型调权的方案。2. 数据集合grade,titleScore,overviewScore,ratingScore,comment:# <docid> keywords@movietitle4,10.65,8.41,7.40,# 1366 rocky@Rocky3,0.00,6.75,7....原创 2019-09-16 01:53:52 · 597 阅读 · 0 评论