自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

iwtbs

wzk@bupt.edu.cn

原创 算法工程师面试准备——推荐算法

文章目录内容召回word2vecLDAFastTextTextCNN行为召回ItemCFUserCF关联规则聚类协同矩阵分解隐语义LFM图召回PersonalRank深度学习召回因子分解排序FMFFM树模型排序GBDT+LR深度模型排序DNN特征高阶组合低阶特征单独建模特征交叉优化小结: 内容召回...

2020-02-25 23:49:17

阅读数 21

评论数 0

原创 算法工程师面试准备——深度学习

神经网络梯度消失与梯度爆炸 简述现象 层数比较多的神经网络模型在训练的时候会出现梯度消失和梯度爆炸问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显 梯度消失问题发生时,靠近输出层的hidden layer 3的权值更新相对正常,但是靠近输入层的hidden layer1的权...

2020-02-25 00:29:31

阅读数 23

评论数 0

原创 算法工程师面试准备——数学

文章目录矩阵分解概率贝叶斯概率贝叶斯优化 矩阵分解 概率 贝叶斯概率 贝叶斯优化

2020-02-25 00:29:04

阅读数 20

评论数 0

原创 算法工程师面试准备——机器学习基础

文章目录

2020-02-25 00:28:32

阅读数 396

评论数 0

原创 面试——推荐算法召回

文章目录向量化召回图嵌入双塔模型协同过滤矩阵分解热度召回内容召回深度树匹配 向量化召回 向量化召回,主要通过模型来学习用户和物品的兴趣向量,并通过内积来计算用户和物品之间的相似性,从而得到最终的候选集。其中,比较经典的模型便是Youtube召回模型。在实际线上应用时,由于物品空间巨大,计算用户...

2020-02-13 17:29:46

阅读数 177

评论数 0

原创 用矩阵分解来解决推荐问题

文章目录整体架构分部细节生成训练数据bm25矩阵分解lightfm 整体架构 读取数据 训练模型 分部细节 生成训练数据 从hadoop生成两个子文件 (1)docid,pv,cl (2)mid,cl_docid_duration_dict, pv_docid_set 生成训练数据: get_...

2020-02-10 16:51:15

阅读数 53

评论数 0

原创 分析用户搜索行为打标签

文章目录整体架构分部介绍 整体架构 直接看代码 #python get_novel_info_from_feed_monitor.py ./data/novel_info.txt #python get_video_info_from_video_film.py ./data/video_info...

2020-02-10 12:20:52

阅读数 45

评论数 0

原创 混合推荐系统介绍

文章目录当前推荐系统的问题工程实践实时推荐系统与混合推荐深度学习等复杂推荐模型整合多数据源特殊情况下的处理策略推荐数量不足的增补通过混合策略解决用户冷启动 当前推荐系统的问题 冷启动问题 数据稀疏性问题 头部效应 头部”标的物“被越来越多的用户”消费“,而质量好的长尾”标的物“由于用户行为较少,...

2020-01-27 15:39:16

阅读数 52

评论数 0

原创 Youtube经典论文相关问题《Deep Neural Networks for YouTube Recommendations》

文章目录论文中召回阶段都用了哪些特征,哪些特征令你印象深刻?论文排序阶段用了哪些特征,哪些特征令你印象深刻?论文中训练样本怎么设置的?论文中测试样本是怎么设置的?每一个备选video都会是一个分类,使用softmax训练时有何改进?为什么不直接采用训练时的model进行预测,而是采用了一种最近邻搜...

2020-01-26 15:11:56

阅读数 23

评论数 0

原创 面试——前向神经网络

写出常用的激活函数和导数 sigmod tanh relu 为什么sigmod和tanh会导致梯度消失现象 z很大或者很小时,梯度都会趋于0 relu相比其他有何优点,局限性有什么?怎么改进 优点: sigmod和tanh都需要计算指数,relu只需要阈值 relu可以解决梯度消失 relu...

2020-01-24 23:41:49

阅读数 50

评论数 0

原创 敏感词匹配——python使用esmre实现ac自动机[多模匹配]

介绍与安装 希望可以做敏感词的匹配,比如包含‘詹姆斯’的句子认为是体育相关,由于数量巨大, 不可能用正则一个个的匹配,因此采用ac自动机,具体原理不介绍了,直接使用esmre库即可。 pip install esmre 简单例子 import esm index = esm.Inde...

2020-01-15 18:47:09

阅读数 76

评论数 0

原创 微博feed流nlp

难点与问题 博文较短且容易图文无关——主题模型不适用 语言随意化——不能从语法结构入手 用户搜索行为序列不好获取 文本简短,页面中能看到全文,没必要点击。从停留行为来看,由于一页展示多条博文,也不能准确定位用户感兴趣的是哪条微博。 用户 feed 行为序列不能准确获取 用户停留在 feed 流的...

2020-01-08 18:26:10

阅读数 34

评论数 0

原创 推荐算法知识梳理

文章目录

2020-01-03 17:51:58

阅读数 57

评论数 0

原创 推荐算法—ctr预估

文章目录总览Deep Crossing(2016年)——深度学习CTR模型的base modelFNN(2016年)——用FM的隐向量完成Embedding初始化PNN (2016年)——丰富特征交叉的方式Google Wide&Deep(2016年)——记忆能力和泛化能力的综合权衡华为 ...

2020-01-03 17:14:10

阅读数 32

评论数 0

原创 利用Gensim 训练 Word2Vec

文章目录模型训练模型参数外部语料模型保存与读取模型预测 模型训练 # 引入 word2vec from gensim.models import word2vec # 引入日志配置 import logging logging.basicConfig(format='%(asct...

2019-12-26 21:20:59

阅读数 7

评论数 0

原创 spark算子

pyspark-RDD Spark本地: Scala实例 下面是我以前总结的一些常用的Spark算子以及Scala函数: map():将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。 mapPartitions(function) :map()的输入函数是...

2019-11-12 14:58:51

阅读数 9

评论数 0

原创 图卷积神经网络

文章目录引言概述挑战现有方法任务图的基础图卷积神经网络图卷积神经网络应用领域 引言 概述 过去几年,卷积神经网络因其强大的建模能力引起广泛关注,在自然语言处理、图像识别等领域成功应用。然而, 传统的卷积神经网络只能处理欧氏空间数据,而现实生活中的许多场景,如交通网络、社交网络、引用网络等,都是以图...

2019-11-07 16:42:25

阅读数 22

评论数 0

原创 用docker搭建Hadoop/Spark/HDFS大数据环境

大数据很有前景,但是搭建环境很麻烦,这里介绍如何用docker来搭建大数据环境。 下载代码 git@github.com:iwtbs/docker-hadoop-spark-workbench.git 启动容器 docker-compose up -d 查看部署结果 Namenode: h...

2019-11-06 19:45:08

阅读数 74

评论数 0

原创 如何比较概率分布的差异(KL散度/JS散度/交叉熵)

KL散度、JS散度和交叉熵都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。 对于概率分布P(x)和Q(x) KL散度 又称KL距离,相对熵 其中 p(x) 是目标分布,q(x)是去匹配的分布,当P(x)和Q(x)的相似度越高,KL散度越小。 KL散度主要有两个性质: ...

2019-11-06 15:01:23

阅读数 127

评论数 0

原创 清华/阿里巴巴开源的周期型——Donut

论文Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications 源码github 文章目录问题背景正文AutoEncoderVariational AutoEnc...

2019-11-01 19:56:05

阅读数 40

评论数 0

原创 特征提取和深度学习的KPI异常检测方法—组合模型

文章目录简介挑战总体设计数据预处理特征提取数据均衡模型训练模型综合 方案来自于首届AIops挑战赛亚军团队 简介 问题场景就是运维中kpi异常检测,希望可以提高检测的准确率。 该团队的思路是提取特征然后用集成学习的方法将异常检测转变为二分类问题,其思路与Opprentice很像。(可以参考我另外...

2019-11-01 16:32:25

阅读数 196

评论数 0

原创 KPI自动化异常检测系统——Opprentice

论文:Opprentice: Towards Practical and Automatic Anomaly Detection Through Machine Learning 文章目录问题设计思想算法细节 问题 KPI类型很多,没有万能的检测器,需要为不同类型的KPI选择合适的异常检测器和合...

2019-11-01 15:50:40

阅读数 229

评论数 0

原创 KPI聚类算法——ROCKA

文章目录问题场景问题挑战算法框架算法细节实验对比辅助异常检测 论文: Robust and Rapid Clustering of KPIs for Large-Scale Anomaly Detection 问题场景 运维场景下需要对KPI做监控和各种算法处理(比如异常检测),但是KPI数量和维...

2019-11-01 15:23:54

阅读数 162

评论数 0

原创 大数据的一些基本概念

文章目录hadoop生态Spark StreamingFlinkETL hadoop生态 Pig:一个基于Hadoop的大规模数据分析平台,为海量数据的并行计算,提供了一个简单的操作和编程接口 Hive:就是一个工具,有完整的SQL查询的功能,可以将sql语句转换为MapReduce任务进行运...

2019-10-29 21:19:04

阅读数 16

评论数 0

转载 SparkMLlib简介

1、机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能...

2019-10-29 20:39:42

阅读数 21

评论数 0

原创 Spark Streaming例子

Spark Streaming 概要 在内部,其按如下方式运行。Spark Streaming接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。 例子 在深入了解如何编写你自己的SS程序之前,让我们先迅速浏览下基本的SS程序是什么样的...

2019-10-29 20:10:05

阅读数 9

评论数 0

原创 MVC是什么

文章目录MVC模式 MVC模式 MVC 模式代表 Model-View-Controller(模型-视图-控制器) 模式。这种模式用于应用程序的分层开发。 Model(模型) - 模型代表一个存取数据的对象或 JAVA POJO。它也可以带有逻辑,在数据变化时更新控制器。 View(视图) - ...

2019-10-29 19:01:31

阅读数 15

评论数 0

原创 SOA架构

文章目录基于SOA架构核心模块和中间件详解系统间通信分布式文件服务器缓存搜索功能消息队列反向代理主从备份 基于SOA架构 SOA:Service Oriented Architecture面向服务的架构。也就是把工程都拆分成服务层工程、表现层工程。服务层中包含业务逻辑,只需要对外提供服务即可。表现...

2019-10-29 17:29:19

阅读数 40

评论数 0

原创 seaborn 数据可视化——分类图

Seaborn的分类图分为三类,将分类变量每个级别的每个观察结果显示出来,显示每个观察分布的抽象表示,以及应用统计估计显示的权重趋势和置信区间: 第一个包括函数swarmplot()和stripplot() 第二个包括函数boxplot()和violinplot() 第三个包括函数barplot...

2019-10-24 11:09:43

阅读数 15

评论数 0

原创 leetcode数据结构算法框架——二分查找

二分查找 思路很简单,注意细节 二分查找框架 int binarySearch(int[] nums, int target) { int left = 0, right = ...; while(...) { int mid = (right + left) /...

2019-10-20 19:40:23

阅读数 17

评论数 0

原创 leetcode数据结构算法框架——回溯

回溯法 实际上回溯算法就是一个 N 叉树的前序遍历加上后序遍历而已,而且回溯算法是有模板的,一旦掌握,就能秒杀相关问题。下面,我们来循序渐进地理解。 // 二叉树遍历框架 def traverse(root): if root is None: return # 前序遍历...

2019-10-20 19:29:11

阅读数 15

评论数 0

原创 leetcode数据结构算法框架——动态规划

动态规划 动态规划算法(Dynamic Programming,简称 DP)似乎是一种很高深莫测的算法,你会在一些面试或算法书籍的高级技巧部分看到相关内容,什么状态转移方程,重叠子问题,最优子结构等高大上的词汇也可能让你望而却步。 实际上,动态规划是一种常见的「算法设计技巧」,并没有什么高深莫...

2019-10-20 19:27:18

阅读数 31

评论数 0

原创 leetcode数据结构算法框架——递归

递归 浅析递归 递归代码最重要的两个特征:结束条件和自我调用。自我调用是在解决子问题,而结束条件定义了最简子问题的答案。 int func(你今年几岁) { // 最简子问题,结束条件 if (你1999年几岁) return 我0岁; // 自我调用,缩小问题规模 return f...

2019-10-20 19:26:38

阅读数 19

评论数 0

原创 git使用

第一步:建立git仓库 新建一个本地仓库,其实也就是新建一个文件夹。最简单的创建方式就是直接在桌面鼠标右键,新建文件夹(test),然后进去该文件夹。鼠标右键,打开git -> Git Bash Here -> git init。执行命令后目录下创建一个.git文件夹。 git ini...

2019-10-12 20:41:30

阅读数 14

评论数 0

原创 大数据Hadoop,spark学习

Hadoop 基础 一个 Hadoop job 通常都是这样的: 从 HDFS 读取输入数据; 在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘; 在 Reduce 阶段,从各个处于 Map 阶段的机器中读取 Map 计算的中间结果,使用用户定义的 reduc...

2019-10-10 17:48:42

阅读数 19

评论数 0

原创 关联分析/频繁项挖掘算法: FpGrowth算法

背景 Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多 FpGrowth算法...

2019-10-08 16:58:28

阅读数 16

评论数 0

原创 关联分析/频繁项集挖掘:Apriori算法

简介 Apriori是一种流行的算法,用于在关联规则学习中提取频繁项集。Apriori算法被设计用于对包含交易的数据库进行操作,例如商店客户的购买。如果项目集满足用户指定的支持阈值,则该项目集被视为“频繁”。例如,如果支持度阈值设置为0.5(50%),则频繁项目集被定义为在数据库中所有事务的至少5...

2019-10-08 15:39:44

阅读数 56

评论数 0

原创 Mac: ld: library not found for -lgcc_s.10.4解决办法

Mac: ld: library not found for -lgcc_s.10.4 Checking for cc… ld: library not found for -lgcc_s.10.4 clang: error: linker command failed with exit cod...

2019-09-30 18:04:33

阅读数 82

评论数 0

原创 连续区间多类型KPI异常检测

文章目录TitleSummaryResearch ObjectiveProblem StatementMethod(s)EvaluationConclusion Title 《ALSR: An Adaptive Label Screening and Relearning Approach for...

2019-09-30 17:37:03

阅读数 138

评论数 0

原创 图——随机游走算法

文章目录推荐基本概念PageRankPersonalRankTextRankSimRank 推荐基本概念 其中用户user=[A,B,C],物品item=[a,b,c,d],用户和物品有以下的关系 上述便是一个典型的二分图,我们用G(V,E)来表示,其中V为用户user和物品item组成的顶点集...

2019-09-26 21:35:29

阅读数 587

评论数 0

提示
确定要删除当前文章?
取消 删除