自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(491)
  • 资源 (17)
  • 收藏
  • 关注

原创 多目标转化依赖DBMTL与AIT区别

DBMTL与AIT的区别。通过前序目标输出作为后序目标输入刻画概率转移关系,概率关系的刻画是通过MLP来刻画的;目标之间如果存在内在联系,稀疏目标能利用非稀疏目标中的信息,得到特殊收益;

2024-05-06 20:28:50 300

原创 双塔模型+自监督学习

双塔模型的问题:推荐系统头部效应严重:少部分物品占据大部分点击,大部分物品点击次数不高高点击物品表征学得好,长尾物品表征学的不好自监督学习:做data augmentation,更好的学习长尾物品的向量表征。自监督学习的目的是为了把物品塔学的更好。

2024-05-05 20:32:30 512

原创 双塔模型模型结构、样本选择、训练方式、线上服务、模型更新

双塔模型模型结构、样本选择、训练方式、线上服务、模型更新,双塔模型负样本选择,召回负样本选择,pointwise pairwise listwise训练方式

2024-05-02 18:03:27 1109 1

原创 特征交叉DCN与LHUC

推荐算法特征交叉,DCN是一种特征交叉方法,从网络结构改变,召回双塔,粗排,精排都能用到。LHUC只能用于精排

2024-05-02 15:49:59 191

原创 大模型LLM在推荐系统的应用

推荐模型如何从大语言模型取长补短,提升推荐性能,优化用户体验,将问题分为2个:何处使用LLM,如何使用LLM

2024-05-01 13:38:02 1267

原创 特征的前期融合与后期融合在召回、粗排、精排应用

特征的前期融合与后期融合在召回、粗排、精排应用

2024-04-28 23:05:45 306

原创 双塔模型在召回和粗排的区别

召回和粗排在不同阶段面临样本不一样,对双塔来说样本分布差异会使召回和粗排采取不一样的方式。

2024-04-28 23:03:10 546

原创 注意力机制、self attention、target attention、双层attention

注意力机制、self attention、target attention、双层attention

2024-04-27 22:57:16 476

原创 融合公式调权思考

本文介绍了几种常见的多目标融合公式调权方案:加法公式、乘法公式、混合加法、非线性公式等

2024-04-25 17:41:06 444

原创 DIN特征加权、POSO特征增强、SENET特征选择

DIN特征加权、POSO特征增强、SENET特征选择 以上做法的区别

2024-04-25 12:02:02 756

原创 高效时间管理法则

你是否天天在忙,是否忙的不得要领,认真领会时间管理的四象限工作法,它会让你的工作变得高效。

2024-02-22 20:05:31 1100

原创 目标管理SMART原则

SMART原则不仅有助于员工更加明确高效地工作,也有助于管理者对员工实施绩效考核,使考核更加科学化、规范化,保证考核的公正、公开与公平。

2024-02-22 19:40:59 497

原创 百分比(%)、百分点(pp)和基点(bp)的区别

如果转化率从10%提升到20%,如果用百分比(%)表达变化,是提升了100%;比较两个数值的变化用百分比(%),比较两个百分比的变化用百分点(pp),如果百分比的变化非常小则使用基点(bp)基点(basic point)简写为bp,是指“百分之零点零一”(0.01%)或“一个百分点的一百分之一”。2022年1月毛利率为12%,2021年1月毛利率为10%,可表述为:“2022年1月毛利率。百分点(percentage point)简写为pp,是比较两个百分比的方法,用以表达。是比较两个数量的方法,

2024-02-21 17:32:40 7030

原创 借钱的原则

在有原则的前提下真诚对待身边每个人,明白这些道理的人自然能理解我的做法,不理解我的人就算因此带着忿恨离我远去,那已不是我力所能及,自然也 问心无愧。好不容易,名牌大学的名牌专业毕业了,每次回家却都是两手空空,人家同样年纪的人都小有成果了,名牌衣服穿着,回家大礼包小礼包的喜气洋洋。这些都让我的心在滴血。何况在我看来结婚不应该成其为你的危机,暂时的贫困有贫困的过法,富贵有富贵的过法,为此而负债,绝对不是理智的行为。你的思维就是有了十万元钱,你的父亲就不会为难了,你的妻子也不会受到委屈了,这成其为了你的难处。

2024-01-19 16:55:44 582

原创 推荐算法从业方法论摘要

二面,是二级leader,我问他和部门leader汇报关系怎样,面试官也很聪明,知道我关心什么,跟我说他们是前一个公司的上下级,潜台词是你稳不稳;最有意思的是,三面跟我说,现在是不到100人,未来会招到100多人,但不会超过150,我当时还是有点失望,但是现在的规模是远远超过他预期的,我们同期进来的人因为业务扩张而有更多的历练机会,加速了职业生涯发展。正确的方向远比确定性的成果要好,如果你的工作是一定程度的突破性的,这种带有不确定性的产出,上限就是100分。而确定性的在知识范畴内的事情,上限就是60分。

2024-01-19 10:30:39 468

原创 很受益的几条道理

又过了一些年,要透析,清醒的时间很少,怀念尿毒症的时候。29、 莫言在《晚熟的人》当中说: 真正的强大不是忘记,而是接受接受分道扬镳 ,接受世事无常,接受孤独挫败,接受突如其来的无力感,接受自己的不完美,接受困惑、不安、焦虑和遗憾,调整自己的状态,找到继续前行的力量,成为更好的自己。” 人一辈子,能遇见那么几个真心相待的人真的就足够了,这世上让你觉得新鲜的东西很多,但让你感到安心的东西却很少,这茫茫星球人山人海,我们能遇见,能相识,能相伴,可以看作是命运,或者说的更厉害一点,是奇迹之一,真的要好好珍惜。

2023-12-19 17:35:40 307

原创 八大学习方法(金字塔模型、费曼学习法、布鲁姆学习模型)

八大学习方法

2023-11-15 19:16:56 1782 1

原创 hive/presto/spark取一行最大值或最小值

hive/presto/sql取一行最大值或最小值

2023-09-13 10:27:03 660

原创 工作方法论—马斯克的任务分解法

美国政府曾经算过一笔账,把一个人送上火星,以现有技术是可实现的,需要花多少钱呢?先看“20”:现在的火星飞船一次只能承载5个人,马斯克的打算是,把火箭造大一点,一次坐100人,这样,就等于把成本降低20倍。他的目标变了,他准备把人均费用降到50万美元,也就是一个想移民的人,把地球房子卖了能够凑出的钱。所以,我们关注的重点来了:马斯克的第二步是,把2万分解成20×10×100。这是一道简单的数学题,也是马斯克三个重点的努力方向。这么算下来,你是不是觉得,马斯克的目标不像最开始听到的那样不靠谱了呢?

2023-08-04 22:51:23 588

原创 工作方法—番茄工作法

首先,番茄工作法是什么?简单来讲,就是把每天的工作拆解到一个又一个几乎不可再拆解的原子模块,在限定的时间内(25分钟),只专注于完成一件事。这样做的好处是,你可以在每个限定的时间内得到你完成任务的结果,收获一定的成就感,同时成就感也是一种推动力。「一个人做多次猜测的平均结果比单次猜测的结果更接近事实」,在不断的回顾分析中,可以让人更好的去制定更加合理的方案,同时通过对每次没完成任务的原因进行了总结,也能更好的优化。可以推后的事情扔到「待办列表」里面等着接下来的日子的排期就好啦,但是一定要记录,不然会忘记。

2023-08-04 22:47:35 358

原创 grouping sets用法

hive/presto中的grouping sets用法

2023-05-22 14:43:19 1419

原创 group by 1 order by 1含义

order by同理。

2023-05-22 11:49:31 488

原创 业界红包玩法与技术方案总结

红包玩法总结,红包技术方案

2022-12-23 15:44:42 3814

原创 如何在工作中提升自己的学习能力

如何在工作中保持自己的学习能力

2022-07-05 10:04:15 3664

原创 广告中cpm,ecpm,rpm指标含义

广告中cpm,ecpm,rpm指标含义

2022-04-17 14:08:09 8173 1

原创 李沐《工作五年反思》笔记与思考

自己学习了李沐的《工作五年反思》,做如下总结:工作五年反思 - 哔哩哔哩工作后的最大不同是你有太多可以最求的目标。这个带来的改变是你需要决定哪些事情现在做,哪些以后做,哪些可以不去做。 决定优先级应该是根据事情的价值。受益人数 x 人均时间 x 单位时间价值差 。对你个人有学习价值 ,对别人有价值。 服务社会最后也是服务自己。对自己价值高的不一定对别人价值高。优化对社会的价值自己也会延迟获得回报。做对别人有价值的事,可以获得自己的满足感和影响力,最终促使自己有内在动力去把事情做好,这是不断成长的..

2021-12-23 11:42:26 614

原创 理想十年。

想一想自己在毕业十年以后是什么样子?自己想自己的未来一定是精英的样子,技术专家或者领域学者或者优秀管理者,这些只是自己给自己设定的目标,但也可能是老油条或者老白兔。如何避免呢?要么对事业有强大的信念,对金钱有巨大的渴望,或者对工作对行业的喜欢和热枕。

2021-12-21 15:47:22 341

转载 面向稀有事件的 Logistic Regression 模型校准

本文引自:面向稀有事件的 Logistic Regression 模型校准1. 引言对分类问题的研究大部分是在样本分布均衡的情况下开展的。比如对二分类,一般研究的是正样本和负样本的数量相当(比如各占50%)或者相差不是那么大(比如一类样本占30%,另一类样本占70%)。但在实际应用时,经常会碰到样本倾斜问题,对于二分类而言,就会是某类的样本比例远小于另一类的样本比例。在学术界,一般称样本少的那类为正类,称正类代表的随机事件为稀有事件。稀有事件的例子并不少,比如发生战争的概率,染上某种不常见疾病的概率

2021-12-14 21:52:15 50 1

原创 如何在工作中形成自己的方法论(待完善)

如何在工作中形成自己的方法论,从而再面对不同业务、不同问题时能够快速适应和解决

2021-12-07 08:34:31 4126

原创 高质量Hive的常见用法

查询sql进行不使用select *,而是select具体字段,节省资源,减少网络开销,*查询时,很可能就不会使用到覆盖索引,就会造成回表查询 如果知道查询结果只有一条,或者只要最大/最小一条数据,建议用limit 1 尽量避免在where子句中用or连接,可以换成两个查询用union all连接,使用or可能导致索引失效 优化like语句,like '%123'和like '123%'有区别,把%放前面不走索引,放后面会走索引 使用where条件限定要查询的数据..

2021-10-29 11:50:56 946

原创 工作一年半个人思考和总结

今天听了分享,带来了很多思考,现总结几点:就个人而言,工作是一个 痛苦->舒适->痛苦->舒适的往复过程,刚开始的痛苦与技能、业务熟悉程度有关,过了这个阶段就进入一个平缓期,做好需求写好代码。过了很久后,又会陷入一个痛苦的过程,业务要优化的点太多不知从何下手,事情太多太杂,会议太多且低效,甩锅撕逼扯皮,各种调整交接;这些事情非常懊恼,想把所有事情都做好仅靠个人太难了,但是还是想自己先做好。然后又陷入一个困境:思考的太多、要优化的地方太多、要做的事情太多、历史遗留问题太多,这又占据了大部

2021-08-19 20:25:07 983 1

原创 presto与hive字符串常用操作(字符串截取、字符串拼接、字符串分割)

1、字符串截取substrpresto:substr(string, start, length) → varchar 如: select substr('1599319787151',1,10)功效:返回字符串A从下标start位置开始,长度为len的字符串substr(string, start) → varchar 如: select substr('1599319787151',1)功效:返回字符串A从下标start位置到结尾的字符串ps:对String来说,...

2021-07-24 15:07:18 10602 1

原创 Hive常用优化方法

1.常用MapReduce作业配置参数可在客户端的mapred-site.xml中配置,作为MapReduce作业的缺省配置参数。也可以在作业提交时,个性化指定这些参数。 参数名称 缺省值 说明 mapreduce.job.name 作业名称 mapreduce.job.priority NORMAL 作业优先级 ..

2021-04-26 10:26:51 533

原创 jupyter notebook出现ImportError: DLL load failed: 找不到指定的程序

然后按照下面的方式来解决:把路径Anaconda3/Library/bin下面的文件libcrypto-1_1-x64.dll和libssl-1_1-x64.dll复制到路径Anaconda3/DLLs下,在运行该命令就可以了。

2021-04-22 14:06:38 2606 4

原创 Container killed on request. Exit code is 143

原因:程序运行时所需内存 >memory。一般是因为处理数据量或者缓存的数据量较大,已有内存不足 并且内存分配速度 > GC回收速度导致。解决方案:增大memory、减少单个Executor的并发数(cores)、减少不必要的cache操作、尽量不要对比较大的数据做broadcast、尽量避免shuffle算子或者对程序逻辑/底层数据进行优化...

2021-04-14 14:38:05 9298

原创 org.apache.spark.shuffle.FetchFailedException: Java heap space

原因:程序运行时所需内存 >memory。一般是因为处理数据量或者缓存的数据量较大,已有内存不足 并且内存分配速度 > GC回收速度导致。解决方案:增大memory、减少单个Executor的并发数(cores)、减少不必要的cache操作、尽量不要对比较大的数据做broadcast、尽量避免shuffle算子或者对程序逻辑/底层数据进行优化...

2021-04-14 14:37:17 1229

原创 java.lang.OutOfMemoryError: Java heap space

原因:程序运行时所需内存 >memory。一般是因为处理数据量或者缓存的数据量较大,已有内存不足 并且内存分配速度 > GC回收速度导致。解决方案:增大memory、减少单个Executor的并发数(cores)、减少不必要的cache操作、尽量不要对比较大的数据做broadcast、尽量避免shuffle算子或者对程序逻辑/底层数据进行优化...

2021-04-14 14:36:20 741

原创 YarnAllocator:Container killed by YARN for exceeding memory limits. spark.yarn.executor.memoryOverhe

原因:运行时memoryOverhead+memory >MonitorMemory解决方法:通过-–confspark.sql.shuffle.partitions=XXX增大partitions个数;或增大executor.memory的大小,不超过(Max)MonitorMemory即可。若已经到max仍然报错,可以减少单个Executor的并发数(cores),增大Executor数量。...

2021-04-14 14:34:06 328

原创 presto常用sql函数(字符串操作、数学函数、日期操作、正则表达式、json、聚合函数、位运算)

字符串函数concat(string1,…,stringN)连接给定的字符串 length(string) 返回给定字符串的长度 lower(string) 返回字符串的小写格式 upper(string) 返回给定字符串的大写格式 lpad(string,size,padstring) 给定字符串的左填充 rpad(string,size,padstring) 给定字符串的右填充 ltrim(string) 从字符串中删除字符左侧空格 rtrim(string) 从字符串中删除字符右侧空

2021-04-13 15:10:54 9595

原创 presto时间转换、时间加减、时间差

Hive中对应的日期操作见:https://blog.csdn.net/qq_21997625/article/details/111473520问题1:时间格式转换例子: 当前时间20200110 转化为2020-01-10--prestoselect (format_datetime(date_parse('20200110','%Y%m%d'),'yyyy-MM-dd')问题2: 时间的加减例子: 原时间为20200110 需先转化为标准日期形式再加减--presto.

2021-04-13 14:20:28 18252 1

OpenCV 3.x with Python By Example 2nd .txt

OpenCV 3.x with Python By Example(2nd).pdf 带书签无水印。这本书用很多实际场景的例子教你学opencv。文件太大,这是链接

2019-06-01

OpenCV-3-x-with-Python-By-Example-master.zip

OpenCV 3.x with Python By Example(2nd).pdf code这本书对应的代码

2019-05-31

OpenCV-with-Python-By-Example-master.zip

OpenCV with Python By Example这本书对应的代码。非常好的入门教程

2019-05-31

传智播客python课件

传智播客黑马python东哥主讲,这里是代码和课件。视频见:https://www.bilibili.com/video/av36851082/?p=129

2019-01-26

强化学习Reinforcement learning:An introduction第二版

强化学习Reinforcement learning:An introduction第二版

2018-10-16

斯坦福cs234强化学习ppt教程reinforcement learning

斯坦福大学stanford cs234强化学习ppt教程reinforcement learning

2018-10-10

迁移学习教程,Transfer learning介绍,TL调查

迁移学习教程-中科院王晋东,Transfer learning介绍-杨强,Transfer Learning survey-杨强

2018-10-08

深度学习优化算法大全

深度学习优化算法,3种梯度下降方法,多种梯度下降优化算法(动量法,Nesterov,Adagrad,Adadelta,RMSprop,Adam等优化器),算法可视化及优化器选择,优化SGD

2018-10-08

machine learning yearning Andrew Ng

machine learning yearning是吴恩达新书,本书含有58章

2018-09-30

Deep Learning for Computer Vision by Dr. Stephen Moore

Deep Learning for Computer Vision by Dr. Stephen Moore. Expert techniques to train advanced neural networks using TensorFlow and Keras

2018-09-18

Deep Learning for Computer Vision with Python123

Deep Learning for Computer Vision with Python123, 作者Dr. Adrian Rosebrock. 总共三本, 分别为starter bundle, Practitioner Bundle, ImageNet Bundle

2018-09-18

Hands On Machine Learning with Scikit-Learn and TensorFlow20173

Hands On Machine Learning with Scikit-Learn and TensorFlow20173 通过最近的一系列突破,深度学习推动了整个机器学习领域。 现在,即使对这项技术几乎一无所知的程序员也可以使用简单有效的工具来实现能够从数据中学习的程序。 这本实用的书向你展示了如何。 通过使用具体示例,最小理论和两个可用于生产的Python框架 - scikit-learn和TensorFlow-authorAurélienGéron帮助您直观地了解构建智能系统的概念和工具。 您将学习一系列技术,从简单的线性回归开始,逐步深入到神经网络。 通过每章的练习来帮助您应用所学知识,您所需要的只是编程经验才能开始。

2018-07-03

David Silver强化学习课件ppt

David Silver强化学习课程文件Lecture 1: Introduction to Reinforcement Learning Lecture 2: Markov Decision Processes Lecture 3: Planning by Dynamic Programming Lecture 4: Model-Free Prediction Lecture 5: Model-Free Control Lecture 6: Value Function Approximation Lecture 7: Policy Gradient Methods Lecture 8: Integrating Learning and Planning Lecture 9: Exploration and Exploitation Lecture 10: Case Study: RL in Classic Games

2018-07-03

MFC教学楼管理系统

MFC管理系统基于网络编程客户端服务器和数据库

2015-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除