Lyteins-CSDN博客

原创 leetcode一些题

156.上下翻转二叉树给定一个二叉树，其中所有的右节点要么是具有兄弟节点（拥有相同父节点的左节点）的叶节点，要么为空，将此二叉树上下翻转并将它变成一棵树，原来的右节点将转换成左叶节点。返回新的根。例如输入: [1,2,3,4,5]输出: 返回二叉树的根 [4,5,2,#,#,3,1]与翻转链表类似，翻转二叉树也可以通过迭代或者递归的方式实现。迭代的方式为class Soluti...

2020-03-31 00:02:09 511

原创算法逃兵的数据挖掘知识总结

作为转做工程的算法逃兵，趁着之前所学还没忘光，以课程cs246为岗整理一下之前所学过的一点数据挖掘知识。当然本文不会详细的介绍每一部分的知识，更多的是作为一个小的知识框架。分布式计算为处理大规模数据，需要增加硬件配置。可以选择纵向扩展，即增加cpu核数、增加单机内存等，也可以选择横向扩展，即增加性能一般、甚至廉价的机器的数量，通常实际应用场景为数据密集型，因此选择后者，也称为分布式计算。原...

2019-10-03 17:03:11 540 2

Raft是一种用于解决复制状态机一致性问题的算法。在此之前，Leslie Lamport老爷子的Paxos算法是处理一致性问题的主流算法，但是Paxos过于玄学，难以理解，而Raft对处理一致性问题的过程进行了简化，将其分为leader选举、日志拷贝、安全性等一系列环节，从而更加易于理解。在Raft中，每个server只有三种状态：leader、follower、candidate。其转换关系为...

2019-04-17 20:10:45 284

原创 Primary-backup Replication论文阅读笔记

对于分布式系统，需要具有高可容错性，因此需要通过主从备份的方式实现主从服务器在任何时刻保持一致。备份的方式有两种，一种叫state transfer(状态转移)，即将主服务器的全部信息传输给备份服务器，这样操作的数据量较大；另一种叫replicated state machine(备份状态)，即主从服务器以相同状态启动，之后导入相同的输入，这样实现方案复杂，但传输数据量相对较小。状态机在物理机上难...

2019-03-28 16:57:21 590

原创 Google File System论文阅读笔记

试着读一下Google分布式三篇文章。MapReduce之前读过，感觉基础理论上理解起来比较简单，对于其在工程上的如容错处理等精髓待深入学习后再重读一遍。这里记录一下GFS论文里暂时学到的内容。需求节点无效是常态，因此需要注意节点的容错、监控以及恢复。以存储大文件为主，一般为几百MB至几GB。负载方面，有大内容连续读，小内容随机读，主要以追加式连续写的方式。需要具有高效性、原子性。高数...

2019-03-23 14:51:51 388

原创关于FP与LISP

很久之前买了SICP这本书，一直没怎么看，这两天刷CS61A的lab的时候，刚好看到这门课后半学期讲到了LISP，所以也顺便学习了一下scheme语法。scheme语法十分简单，但是备受推崇的函数式编程的核心不在语法上，而在于只用过程而不用状态来计算这一思想，现在我对此还不是很理解，之后有时间再慢慢啃一下这本书。这里暂时记一下语法好了。scheme中一共有两类expression，一种是self...

2019-01-20 13:14:07 240

原创《美团机器学习实践》笔记

偶然在群里看到了《美团机器学习实践》这本书的pdf资源，而美团又是一直以来我最敬佩的公司之一，之前从美团技术团队那个账号学到了很多，所以拜读一下这本书，这里简要整理一下读书笔记。全书总共分为通用流程、数据挖掘、搜索与推荐、计算广告、深度学习、算法工程这几部分，涉及范围较为广泛。一、通用流程1.问题建模一个问题拿到手，需要通过机器学习的方式进行处理，首先要通过评估指标、样本选择、交叉验证等一...

2019-01-04 23:04:12 908

原创论文笔记|Deep Interest Network for Click-Through Rate Prediction

这是阿里的一篇提出深度兴趣网络这一结构的文章。如之前所说，在推荐系统中，用户行为序列含有很强的信息，包含了用户可能对什么类型的商品的兴趣趋向。在之前的YouTube的论文中，采用了将序列信息的embedding vector进行均值处理的方式，实际上这也是大部分网络结构对此的处理方式。人们尝试使用NLP中的序列信息分析方法，比如LSTM进行序列分析，然而效果并不理想，说明用户的行为序列信息与语言...

2018-12-29 21:40:12 1641

原创论文笔记|Deep Neural Networks for YouTube Recommendations

这篇论文是YouTube团队发表于16年RecSys上关于推荐系统在DNN上的尝试。虽然在这过去的两年内，DNN相关的推荐系统模型层出不穷，但这篇文章依旧具有极强的尤其是在工程上的学习意义。系统概况文章首先介绍了在YouTube视频推荐场景的三个挑战：数据量极大，适用于小场景的模型不一定有效；更新速率快，每秒有小时级别的视频更新量，需要实现新视频的及时推荐；用户历史数据稀疏，没有标准的用户满意...

2018-12-23 15:22:54 377

原创论文笔记|ITEM2VEC: NEURAL ITEM EMBEDDING FOR COLLABORATIVE FILTERING

前两天在朋友圈看到学弟发的一个图，巨佬学习是hash，大佬学习是遍历，我学习是无穷递归，今天才发现诚不我欺。早上决定将YouTube 16年在RecSys那篇经典的文章学习一下，结果看到Negative Sample就看不懂了，然后在知乎查了一下，又在大佬的指引下找ICML 2016的这篇文章学习一下。推荐系统最经典的算法是基于用户相似度的推荐算法u2u，称为memory-based，和基于物品...

2018-12-20 17:35:23 1687

原创论文笔记|Wide & Deep Learning for Recommender Systems

在读了FM和FMM的论文后，紧接着开始学习最典型的FM系列的深度神经网络模型DeepFM，看到论文中多次提到Wide&amp;Deep这个模型，因此首先找来这篇文章学习了一下。通常分类或回归方法分为两类，一类是简单的线性模型，通过分析特征性质，用两个或多个特征手动构建新的特征，特点是输入变量高维、稀疏，称为Wide模型，如LR；另一类是模型较为复杂，能够自动构建新的非线性特征，，特点是输入变量低...

2018-12-18 23:11:25 318

原创 CTR模型

ctrctr（广告点击率）与cvr（广告转化率）是在推荐系统中的重要概念。CTR预估正样本为站内点击的用户-商品记录，负样本为展现但未点击的记录；CVR正样本为站内支付（发生转化）的用户-商品记录，负样本为点击但未支付的记录。CTR和CVR预估模型为线下估计，用于线上测试，特征主要分为三类：用户相关特征包括年龄、性别、职业、兴趣、品类偏好、浏览/购买品类、近期点击量、购买量、消费额等，商品相关...

2018-12-17 12:16:22 2787 1

原创 GBDT原理

GBDTGBDT，全称Gradient Boosting Decision Tree。CART在GBDT中使用的回归树模型为CART。其算法为[1]对于每个节点处，当前数据集为D={(x1,y1),(x2,y2),...,(xn,yn)}D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}D={(x1,y1),(x2,y2),...,(xn,yn)}...

2018-12-17 12:15:27 892

原创 Shuffle&Sample

近来打算通过自己实现几个常见模型来复习一下之前看过的，顺便练习一下Python语法的熟练度。首先准备搭好除模型外的整个程序的其他部分，比如数据的导入、划分。在写划分数据集部分的函数时，查了一下random模块中有sample(data, k)和shuffle(data)两个函数，分别实现从一个序列中采样k个数和将数据集内数据打乱的，其中sample函数将采样后数据作为返回值，shuffle函数直...

2018-12-17 12:14:49 239

原创受限玻尔兹曼机

受限波尔兹曼机(Restricted Blotzmann Machine,RBM)是一种可用随机神经网络(stochastic neural network)来解释的概率图模型(probabilistic graphical model)，由Smolensky在波尔兹曼机(Blotzmann Machine,BM)基础上提出，其输出只有激活与未激活两种状态，一般用1和0表示，具体取值依据概率统计法...

2018-12-17 12:13:55 467

原创论文笔记|The Wisdom of The Few

今天读了The Wisdom of the Few这篇文章，这里稍作整理。在推荐系统中，最经典的莫过于协同过滤算法，分为基于用户的协同过滤算法userCF与基于商品的协同过滤算法itemCF，本质上为寻找与你最相近的用户购买的商品或者与你购买过的商品最相近的商品。这两种算法首先都需要建立用户与商品的关系矩阵，值为用户对商品的评价打分或者0/1表示是否用户与商品有过购买等行为。在实际应用场景中，关...

2018-12-17 12:12:41 427

原创写在本学期开学前

还有几天就要成为研二学生，真是令人唏嘘不已。最近也试着投了几份简历给intel，还没有收到任何回复，也是僵硬。回顾研一这一年呢，虽说一直在忙，感觉就没停下过，但是仔细想想学到了什么，竟也说不出什么一二三，说到底还是太杂，没有计划性，就像batchsize太小的SGD。其实反反复复，西瓜书、蓝皮书这些也看了几遍，算法也都挨个推导过，但此时回忆不出半分。大概是以前的观点就是错的，一直以为理论概念扎...

2018-09-01 23:13:53 267

原创《集体智慧编程》阅读笔记

本书从实际业务、应用场景出发，介绍机器学习算法。提供推荐主要从如何寻找相似用户、通过相似用户对用户进行商品推荐以及相似商品进行讲述。每一位用户对部分商品如影片有评价分数，根据两个人对同一商品的打分情况可以判断两用户相似情况。判断相似程度有欧几里得距离、皮尔逊相关度等。其中欧式距离计算不同分数之差的平方和的开方，范围在0到正无穷，容易受到“夸大分数”的影响。皮尔逊相关度根据两人对同样几件...

2018-08-26 16:29:53 336

原创剑指offer题目

1.二叉树镜像牛客 python：# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution: # 返回镜像树的根节...

2018-08-19 22:37:10 239

年迈的艺术家们