- 博客(31)
- 收藏
- 关注
原创 双塔召回 工业实践文章收集
双塔(DSSM)召回,是个性化推荐中常见的一种方式。但是各家的有各种实践方式去优化。 现收集如下五八同城:向量化召回上的深度学习实践https://www.6aiq.com/article/1618011600160五个星,重点看QQ浏览器:小说召回中的DSSM模型优化实践https://www.sohu.com/a/447529493_187948推荐粗排(召回)工程实践之双塔DNN模型https://mp.weixin.qq.com/s/w-J_hz1Qf3Y-Kc8ywx9kUg小米收
2022-02-08 16:43:22 808
原创 Tensorflow数据读取
https://tensorflow.google.cn/api_docs/python/tf/data/TextLineDataset?hl=zh-CNtf.data.TextLineDataset 接口提供了一种方法从数据文件中读取。我们提供只需要提供文件名(1个或者多个)。这个接口会自动构造一个dataset,类中保存的元素:文中一行,就是一个元素,是string类型的tensor。https://zhuanlan.zhihu.com/p/163656225https://www.cnblogs
2021-06-19 17:47:10 234
原创 Tensorflow Estimator学习
https://tensorflow.google.cn/api_docs/python/tf/data/TextLineDataset?hl=zh-CNtf.data.TextLineDataset 接口提供了一种方法从数据文件中读取。我们提供只需要提供文件名(1个或者多个)。这个接口会自动构造一个dataset,类中保存的元素:文中一行,就是一个元素,是string类型的tensor。https://zhuanlan.zhihu.com/p/163656225https://www.cnblogs
2021-06-19 11:43:13 352
原创 推荐系统多目标学习之loss权重
前言多目标学习是推荐算法中很常见的关键点, 通常信息流推荐算法的有ctr, 互动率, 时长等目标。假如只单独优化其中一个肯定无法留存用户或者创收, 譬如只看点击率ctr的话很容易出现一些标题党, 只看互动率的话很多转发保平安的帖子会排序分很高。 因此如何在一个共识或者一套模型中实现多种目标的提升是很多算法组的期望。多目标学习分类与演近对于多目标学习的各类方法,很多文章进行了很好的总结。 譬如下面两个链接。https://lumingdong.cn/multi-task-learning-in-rec
2021-06-16 22:23:56 2962 2
原创 CatBoost整理
Catboost是一种gbdt算法优点一:高效合理地处理类别型特征优点二:解决了梯度偏差(GradientBias)以及预测偏移(Prediction shift)的问题,从而减少过拟合的发生与XGBoost、LightGBM相比,CatBoost的创新点有:嵌入了自动将类别型特征处理为数值型特征的创新算法。首先对categoricalfeatures做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numericalfeatures)。Catb
2021-05-12 17:53:58 197
原创 spark整理
Spark基本概念spark就是把分布式计算搬到内存上Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。配置好后用,pyspark或者IPython notebook写RDDRDD 是Spark中最重要的一环 ,其实就是个格式转换数据集合使得可以在内存上进行mapreduce, 可以从HDFS读,也可以从文件读取这些步骤大体如下:定义一个或多个RDD,可以通过获取存储在磁盘上的数据(HDFS,Cassandra,HBase,Local Disk),
2021-05-12 17:46:09 114
原创 Hadoop文档学习
HDFS架构设计HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的。为了容错,文件的所有数据块都会有副本。数据组织,数据块HDFS被设计成支持大文件,适用HDFS的是那些需要处理大规模的数据集的应用。这些应用都是只写入数据一次,但却读取一次或多次,并且读取速度应能满足流式读取的需要。HDFS支持文件的“一次写入多次读取”语义。一个典型的数据块大小是64MB。因而,HDFS中的文件总是按照64M被切分成不同的块,每个块尽
2021-04-24 13:36:51 86
原创 推荐算法评价指标 AUC
整理几篇好的对AUC的理解1, https://www.infoq.cn/article/vc71ssa0ug439bxm2knoAUC 更关注前后排序,更适合推荐精排例如0.7的AUC,其含义可以大概理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分高于对负样本的打分。可以看出在这个解释下,我们关心的只有正负样本之间的分数高低,而具体的分值则无关紧要。2, https://zhuanlan.zhihu.com/p/73335362这个带图解释更清楚...
2021-04-22 15:39:41 323
原创 MMOE 多任务学习推荐算法 和两种实现
本文收录在推荐系统专栏,专栏系统化的整理推荐系统相关的算法和框架,并记录了相关实践经验,所有代码都已整理至推荐算法实战集合(hub-recsys)。 1.背景 何谓多任务,即在一个模型中考虑多个目标。在推荐系统中,往往需要同时优化多个业务目标,承担起更多的业务收益。如电商场景:希望能够同时优化点击率和转换率,使得平台具备更加的目标;信息流场景,希望提高用户点击率的基础上提高用户关注,点赞,评论等行为,...
2021-04-17 17:20:23 254
原创 HIVE安装使用与SQL教程
安装 brew国内安装brew使用下面的脚本:/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"安装hive‘’
2021-04-14 11:54:01 406
原创 新的征程,新的希望
上周终于入职了, 算是第一份正式的工作,终于踏上了职场。公司里的技术框架和流程好棒,值得好好学习和深造。当然除了学习业务上的知识,也要平时积累各种技能和理论, 因此想在今天重开博客, 希望能帮到自己若干年后也能帮到他人。...
2021-04-13 00:14:31 113
原创 Apollo 公开课 规划
第一节课规划本来就是一个搜索问题,找到objective function。 机器学习里面Mapping。我们一开始从path finding problem 开始考虑第一个想到的 就是BFS和DFS ,属于 non informatic search,A *属于 informatic search,但是这是global optimation是对全局全知的问题。但是无人车是partica...
2019-09-20 02:17:33 220
原创 微服务学习
以前都是mvc框架,太重了,管理维护升级不方便现在变成microservice框架,每个都有自己的数据库,然后部署在一个docker上,最后用api gateway连起来缺点 :分布式的复杂化不同docker之间通信这会降低效率,因为你和其他人沟通怎么保证数据库consistency,因为数据库分开了用event -driven,一旦有个event发布了,所有订阅的服务就对自己...
2019-06-26 18:25:29 296
原创 Scrapy tutorial and practise-crawl job webste
爬java的岗位 https://db.alumni.tum.de/jobs/search?utf8=✓&search[q]=java首先确定xpathIn [3]: response.xpath('//div/section/ul/li/a/strong/text()').getall()Out[3]: ['Software Development Engineer Medica...
2019-06-25 22:34:13 291
原创 python 学习笔记(只记重点)
部分摘自 https://www.learnpython.org/en/String_Formattinghttps://www.liaoxuefeng.com/wiki/1016959663602400/1018877595088352输入输出print()函数也可以接受多个字符串,用逗号“,”隔开,就可以连成一串输出:print('The quick brown fox', 'jump...
2019-06-16 06:21:01 1431
原创 云计算学习笔记
Instruction云计算分IaaS, 架构PaaS, 平台SaaS, 服务类型还分 public, private, Community(属于一个组织的),Vitual Private (服务自己,但是借用第三方的),Hybrid Cloud云计算主要特性On-demand self-service.Broad network access.Resource pooling....
2019-06-12 06:27:49 393
转载 线程进程与UI主线程
收藏一下,线程进程讲的最好的一段话转自https://www.nowcoder.com/test/question/done?tid=24104484&qid=56178#summary 作者:g给不二web Worker 本质是一个线程,在UI主线程之外并发执行的线程,主要解决耗时的JS任务。首先了解浏览器的线程模型是怎样的?程序:计算机可以执行的代码,存在磁盘中 — 这是...
2019-05-27 03:40:41 616
原创 cousera“Neural NetWorks and Deep learning"读书笔记
因为之前上过学校deep learning准备用这门课温习复习一下deep learning预言squence model : for nlp, like LSTMcnn ususally used on image /CVwhat is neural network通过一个房地产模型讲述神经网络你获得x输入和y输出,那些中间的神经元就是你要设计的地方Relu() 函数 Rec...
2019-05-26 18:01:03 177
转载 Linux命令学习法
转载自 https://www.cnblogs.com/rocedu/p/4902411.html 别出心裁的Linux命令学习法操作系统操作系统为你完成所有“硬件相关、应用无关”的工作,以给你方便、效率、安全。操作系统的功能我总结为两点:管家婆和服务生:管家婆:通过进程、虚拟内存和文件三个重要抽象管理计算机的CPU、内存、I/O设备。服务生:为用户提供shell,为程序员提供系统...
2019-05-25 22:31:03 344
转载 java.util.Queue用法
转自 https://www.cnblogs.com/linjiqin/archive/2013/05/30/3107656.html Ruthless队列是一种特殊的线性表,它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作。进行插入操作的端称为队尾,进行删除操作的端称为队头。队列中没有元素时,称为空队列。在队列这种数据结构中,最先插入的元素将是最先被删除的...
2019-05-19 19:39:36 91
原创 通过剑指第二十题学习javascript正则表达式
之前用正则都是临时偶尔看一下,没有正式的学习过。这次碰到剑指第20题,十分感兴趣,也觉得要正式系统学习一下正则了。题目愿意是:链接:https://www.nowcoder.com/questionTerminal/6f8c901d091949a5837e24bb82a731f2来源:牛客网请实现一个函数用来判断字符串是否表示数值(包括整数和小数)。例如,字符串"+100",“5e2”,...
2019-05-07 18:38:29 397
转载 ip地址划分
现在的IP网络使用32位地址,以点分十进制表示,如172.16.0.0。地址格式为:IP地址=网络地址+主机地址 或 IP地址=主机地址+子网地址+主机地址。IP地址类型最初设计互联网络时,为了便于寻址以及层次化构造网络,每个IP地址包括两个标识码(ID),即网络ID和主机ID。同一个物理网络上的所有主机都使用同一个网络ID,网络上的一个主机(包括网络上工作站,服务器和路由器等)有一个主机ID...
2019-05-06 18:53:37 274
转载 java数组的三种初始化方式
2018年4月3日Java语言中数组必须先初始化,然后才可以使用。所谓初始化就是为数组的数组元素分配内存空间,并为每个数组元素附初始值。注意:数组完成初始化后,内存空间中针对该数组的各个元素就有个一个默认值:基本数据类型的整数类型(byte、short、int、long)默认值是0;基本数据类型的浮点类型(float、double)默认值是0.0;基本数据类型的字符类型(char)默认值...
2019-05-02 17:01:28 372
原创 《剑指offer》读书笔记
第一章电话面试要尽可能形象化的语言把细节说清楚千万不要不懂装懂,这是面试大忌,大胆多提问 直到弄清楚面试官意图视频面试:良好的代码命名和缩进对齐习惯,能够进行单元测试,测试在前开发在后碰到有问题了,就设置断电,单步追踪,查看内存,分析调用栈现场面试:准备好向面试官提问的 问题面试分为 行为面试 技术面试和应聘者提问行为面试:自我介绍,项目经验。用star模型描述自己经历的项目Sit...
2019-04-18 22:43:55 272
原创 《图解HTTP》读书笔记
第一章HTTP (hypertext transfer protocol)超文本传输协议URL(Uniform Resource Locator,统一资源定位符)主流就是http 1.1 现在2.0在定制中。通常使用的网络(包括互联网)是在TCP/IP协议族的基础上运作的。http属于它内部的一个子集。TCP/IP 是IP协议通信过程中,使用到的协议族的总称。大家互相通信总要有个规定。...
2019-04-18 05:09:09 323
原创 第一篇博客
第一篇博客欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdow...
2019-04-15 19:22:07 120
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人