灰度发布、A/B Testing

A/B Testing相信学习ML的朋友大都了解,一般指的是在运行的产品想要发布一个新功能或修改一个功能,于是在所有用户中划出一部分用户来使用新功能,对比A/B组的使用反馈。 最近了解到灰度发布的概念。 灰度发布则是指在项目有大改动需要重新上线的时候,为了保证新项目不出太大的bug,先使用...

2019-07-16 16:53:19

阅读数 10

评论数 0

Hadoop笔记之十七——爬虫框架scrapy实际案例(爬取安卓版QQ阅读)

话不多说,我们的目的: 使用scrapy爬取安卓版QQ阅读所有的小说(只是小说的基本信息,小说内容是不要想的、千万不要想……) 环境准备 安卓收集模拟器:夜神模拟器 安卓手机抓包工具:fiddler 代码运行环境: python3.6 存储数据库: postgreSQL。 大体...

2019-06-11 16:53:40

阅读数 56

评论数 2

理解Spark之一——stage划分

我们首先知道Spark的基本执行流程,简化来说,当提交一个Spark程序,HDFS上的每个Block对应一个分区、一个Task任务,这个Task任务就是在跑我们开发是Spark程序,程序中是我们使用的一个个算子。 在算子中,又可以划分成为两种,一种是宽依赖、一种是窄依赖,它们和stage的关系...

2019-05-23 11:03:01

阅读数 56

评论数 0

Spark日志——字符串切分|问题,连接mysql没有合适驱动包问题,数据库插入数据的顺序问题

2019-05-19 日志记录 项目 高效数据分析 内容 使用spark1.6.0(scala)根据话单数据统计其中某个字段,排序并导入mysql。 问题 1、读取到以”|“为分隔符得到数据后,使用”|“split,得到的rdd格式是将一行数据所有元素全部单独拆成了单独的元素,如: ...

2019-05-20 08:51:34

阅读数 8

评论数 0

深度学习笔记之五——tensorflow的多值离散值特征的embedding

Embedding embedding是取代onehot的比较好的一种方式,与NLP中的word embedding有所区别,我们这里的embedding,仅仅是因为该特征unique值过多,onehot产生的矩阵过宽,所以取而代之使用embedding来减少维度。 单值 回到题目,...

2019-04-24 17:05:53

阅读数 228

评论数 1

深度学习笔记之四——feature_column

1、numeric_column —— 代表连续数值类型的特征列。 2、bucketized_column——将连续数值分箱,如:输入(1,2,3,4,5)按照(0,34,5)两个区间分箱,分箱成为(0,0,0,1,1)的onehot形式,即最终结果为:),( [1,0] #1 [1,...

2019-04-22 08:51:06

阅读数 86

评论数 0

深度学习笔记之三——tensorflow实现wide&deep模型

wide&deep模型原理十分简单,说白了就是wide类模型与deep类模型的组合(借鉴google paper,但是选用模型不同)。 提出两个问题: 1、什么是wide类、deep类? wide类模型一般指的是复杂度不高的线性模型,以LR最为常见。 deep类模型一般指的...

2019-04-19 17:08:44

阅读数 133

评论数 4

推荐系统学习笔记之七——大数据量下相似item计算(LSH)

在推荐系统中,我们不可避免的会遇到相似物品推荐的问题,这时候我们首先会想到去计算所有items互相间的相似度。而当我们去一个个计算iem与item之间的相似度(如余弦相似度)时,我们会发现这时一个时间复杂度至少O^(n*n*m)的问题,对于n个item中的每一个item,都要计算它与其他所有ite...

2019-04-04 23:51:11

阅读数 83

评论数 0

推荐系统笔记之六——python实战LFM、BasicSVD、SVD++

上一章节讨论了数学中的SVD、机器学习中的SVD以及推荐系统中的SVD系列算法,今天我们用python来实战一下,知道原理,究竟该如何实现。 LFM 首先是最简单的LFM(即 Funk SVD),首先原理我们是知道的,LFM的基本思想是使用两个矩阵P、Q的乘积来近似原始评分矩阵的。如何实...

2019-03-20 22:04:28

阅读数 65

评论数 0

推荐系统笔记之五——基于学习的协同过滤(数学中的SVD、机器学习中SVD、推荐系统中的SVD系列)

SVD(single value Decomposition,奇异值分解)在机器学习中经常出现,是一类用来降维的方法,在图像处理方面,是一类用来降噪降秩的方法,在推荐系统中,发展成为一系列基于矩阵分解类模型。 笔者经历尚浅,暂时认为降维降秩和推荐系统中的一系列算法在应用上不应该混为一谈。 ...

2019-03-17 22:04:27

阅读数 52

评论数 0

推荐系统学习笔记之四——相似度计算以及权重的重要性

教材:《推荐系统 技术、评估及高效算法》 上一小节:推荐系统学习笔记之三——(基于邻域的)协同过滤算法的公式化、标准化 上一小节我们跳过了 用户之间、物品之间 相似度计算的方法,在这一小节,我们详细叙述常见常用的集中相似度计算方法以及 相似度用户(物品)权重的重要性。 目录: 1、相似度 ...

2019-03-06 14:57:33

阅读数 593

评论数 0

推荐系统学习笔记之三——(基于邻域的)协同过滤算法的公式化、标准化

教材:《推荐系统 技术、评估及高效算法》 目录:基于用户的评分预测 --公式 --例题 --基于用户的分类预测方法 基于物品的推荐 --公式 --例题 ...

2019-03-06 13:56:21

阅读数 113

评论数 0

推荐系统学习笔记之二——详解几类推荐技术(基于内容的推荐、基于用户的协同过滤、基于物品的协同过滤、基于模型的协同过滤)

材料: 《推荐系统 技术、评估及高效算法》 推荐技术最为基础的两种推荐算法,无非是基于内容的推荐算法以及协同过滤算法。那么这两类算法究竟是什么意思呢? 基于内容的推荐算法(content-base) 权威解释:对某个用户已经评分过的物品分析其共同特点,然后将含有这些特点的新物品推荐...

2019-03-05 21:56:00

阅读数 1085

评论数 0

推荐系统学习笔记之一——综述

教材:《推荐系统 技术、评估与高效算法》。 推荐系统(Recommender System,RS) 1、概念及出现原因。 2、服务人群。 3、功能。 4、数据来源。 5、现有技术。 6、评估方法。 1、概念及出现原因 推荐系统是一种向目标用户建...

2019-03-03 14:36:29

阅读数 69

评论数 0

机器学习笔记之二十二——PCA与SVD

PCA(主成分分析)是机器学习中常用于数据降维的一种方式,SVD(奇异值分解)也具有降维的效果,在推荐领域、nlp领域较为常见。 PCA PCA主要通过数据矩阵的协方差来作为降维的准则,具体流程如下: (1)、对m*n矩阵计算协方差,得到n*n的协方差方阵。 (2)、使用特...

2019-03-02 12:26:58

阅读数 31

评论数 0

jieba分词+wordcloud——《斗破苍穹》词云

效果图: 环境:python、jieba、wordcloud。 材料:《斗破苍穹》、背景图(背景图需要保证除了图案之外,其他地方是‘空白’,友情提示:空白是空白,不是看起来白,要保证像素值为0) jieba和wordcloud都可以通过pip install 来安装,很省事。 ...

2019-02-28 15:34:10

阅读数 78

评论数 0

机器学习笔记之二十一——基于统计的中文分词方法

中文NLP最基础的问题应该就是分词了,毕竟中文不像英文一样单词与单词之间都有空格存在,所以将句子中的词语分开就是机器对一个句子或者一篇文章进行NLP的第一步。 分词的方法许多,比如基于字典的暴力分词,基于统计的语义分词。因为目前中文分词领域最有效果的就是基于统计的分词方法,所以,我先看它。 ...

2019-02-28 15:16:26

阅读数 416

评论数 0

机器学习笔记之二十——Factorization Machines(FM)

  Factorization Machines,为什么会出现这个东西?       (1)、在推荐系统中,数据矩阵往往是十分稀疏的,而原本分类任务中最强的单模型——SVM又对高维稀疏的数据十分的不敏感,无法找到一个好的分割超平面。       (2)、推荐系统中有诸多基于内容的推荐算法、协同...

2019-02-26 21:42:03

阅读数 57

评论数 0

tensorflow高阶API——Estimator

   tensorflow在DL社区火热,无论写个什么算法都要搞在tensorflow上面。我喜欢tensorflow的两个地方,一是分布式方便,二是跑GPU方便,然而tensorflow终究是个科学计算库,要在上面进行算法的研发和工程化,还是有点儿裸奔的感觉。   所以,我选择Estimato...

2019-02-25 14:31:58

阅读数 102

评论数 0

启发式算法之蚁群算法、模拟退火算法

  什么是启发式算法?    启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行...

2019-02-21 14:45:33

阅读数 109

评论数 0

提示
确定要删除当前文章?
取消 删除