- 博客(640)
- 资源 (1)
- 问答 (4)
- 收藏
- 关注
原创 【Interview】想法合集
区别在于是否线上可以无限召回,比如基于统计的召回,需要事先把召回结果存入kv中,在线下召回结果已经确定了;而基于embedding的召回,可以得到item的embedding,然后线上可以通过近邻索引来召回topn,这样只要有item的embedding,基本上都能得到topn的召回,所以可以起到兜底的效果。i2i相比u2i的优点;主要有两大类型,分别是。
2023-10-16 18:36:26 183
原创 【推荐系统】wss课程-重排序
如果 i 与集合 S 中的某个 j 很相似,则启抑制作用,不利于 i 被选中。衡量物品 i 与集合 S 的相似度。- 每轮都从未选中的物品中与已选中的物品计算 MR,把分数最高的 i 从 R 中移出来。每一轮的 S 都会发生变化,所以每轮的 MRi都要重新计算。i已选中,j 未选中。目标:精排分数高且与所有已选中物品都不相似。sim(i,j),j 求最大化,消掉 j。MMR 就是对 MR 就最大化。marginal 边缘的;
2023-10-06 23:35:24 152
原创 【推荐系统】geohash召回
浮点数编码成字符串占用的字节数较多。给定当前位置:东方明珠 -> 坐标&搜索半径。如何利用genhash去搜索附近的邻居?geohash比经纬度好在哪里?1个浮点数占用存储空间4个字节。查询周边的特定商家:餐厅。
2023-09-15 18:51:01 271
原创 【机器学习】XGB如果类别不平衡怎么解决?和深度学习解决办法一样吗?
xgboost-样本类别不平衡 - 知乎分类问题中类别不平衡问题的有效解决方法_多分类问题时 scale_pos_weight-CSDN博客解决样本不平衡问题的奇技淫巧 汇总_数据小样本 同时每天数据都在变_songhk0209的博客-CSDN博客
2023-09-15 16:56:10 281
原创 【Hive】drop table需注意外部表
ALTER TABLE tb_nameSET TBLPROPERTIES('EXTERNAL' = 'FALSE');
2023-09-05 19:42:13 695
原创 【知识点】温度超参数
考虑一下出现困难负样本的原因,有可能是因为两张图片确实非常相似,通常是两张图片有着相同的前景,让算法产生了混淆。也就是说,其实网络已经学到了一定的语义特征,这对下游任务是有帮助的,强行将两张非常相似图片提取出的特征相互远离,有可能打破这种语义信息,导致在执行下游任务时,效果不升反降。如果没有引入temperature参数,当有困难负样本过来时,loss相对较小,对参数的惩罚也就较小。因此,必须对所有错误分类的样本都加大惩罚,所以,要加入一个小于1的temperature参数,来放大对于困难负样本的惩罚。
2023-08-28 15:56:57 530
原创 【Pytorch】CUDA error: no kernel image is available for execution on the device
当前的 PyTorch 安装支持 CUDA 功能 sm_37 sm_50 sm_60 sm_70。记录一下pytorch安装的cuda版本和GPU cuda不一致的解决。sm_80对应的cuda是11.1,而我安装的cuda是10.2。一般就是pytorch和cuda安装的不匹配。如果我安装的torch配的cuda信息如下,具有 CUDA 功能 sm_80 的。与当前 PyTorch 安装不兼容。改一下就好了,根据官网。
2023-08-25 16:04:47 647
原创 【推荐系统】wss课程-排序
这节课的内容是推荐系统排序的多目标模型。这节课的内容分两部分。- 第一部分是模型结构。模型把用户特征、物品特征、统计特征、场景特征作为输入,输出对多个指标的预估。- 第二部分内容是降采样和校准。在实际的推荐系统中,正负样本的比例严重不平衡,负样本数量远多于正样本,因此需要对负样本做降采样。以点击率为例,对负样本做降采样会导致模型高估点击率,因此需要用公式做校准。多条召回通道从几亿篇选出几千篇,粗排给召回的笔记逐一打分,保留几百篇。精排再打分,不做截断,带着分数进入重排。
2023-08-13 17:12:13 1113 2
原创 【推荐系统】wss课程-行为序列
用户行为序列 = lastN(用户最近交互过的 N 个物品)用户特征中的 last N特征很有效,加入召回和排序中所有指标都会大涨。用户 lastn行为序列可以反应出用户对什么物品感兴趣。
2023-08-07 00:59:41 304
原创 【】断点位置与使用
step into mycode(只能跳转当前脚本的函数) 和 step into(也可以跳入外部脚本写的函数 ) 差不多,唯一区别: step into mycode遇到当前脚本写的函数,会进入函数内部执行;如果是其他包导入的函数,就不会跳入那个函数。函数执行一遍,想要出来,回到主程序上,点击 step over。resume program 跳过当前断点,直到运行到下一个断点处。step out 从里面的函数,一层一层往外面的函数跳。step into 运行到函数部分,进入函数内部执行。
2023-07-26 23:57:35 279
原创 【Python】矩阵乘法3种实现方案
两个张量对应的元素相乘(element-wise),在PyTorch中可以通过 torch.mul 函数(或者∗ *∗运算符)实现。3、一般来说,@ 比.dot()方法要慢一点点。dot是numpy里的函数,主要用于求向量相乘,矩阵乘法,矩阵与向量乘法。两个张量矩阵相乘(Matrix product),在PyTorch中可以通过 torch.matmul 函数实现。点积 对于元素相乘并相加,也就是说会降维。2、用这个 @ 运算符可以不用再使用。的意思,也是dot()的意思。1、@ 符在numpy里就是。
2023-07-06 22:02:05 1736
原创 【Faiss】余弦相似分数等于L2归一化再内积
Faiss提供了faiss.METRIC_INNER_PRODUCT 和faiss.METRIC_L2。IndexIVFFlat在参数选择时,使用faiss.METRIC_INNER_PRODUCT。normalize_L2 并 向量的内积 -》 余弦相似性。如果从式子上看 就是分母通分,两个式子是相同的。只需要我们代码加上normalize_L2。说明关于余弦相似性的计算。
2023-07-06 21:42:16 1811
原创 【计算机视觉】对比学习采样器sampler
L=500,n_label=10,batch=500//10=50,需要采50个batch,每个batch里10个商品*n_instance。总共有31w的图片,要想31w/4800=64.5=64,想要全部图片看一次需要设置这里的epoch=64次,想要看多次则64*多次。每个epoch会过完所有的label,也就是会过完所有的商品,但只会过40*10*12张图片=4800张。在该文档里,category表示类别,label表示商品,instance表示商品不同角度的图片。L个商品,C个类目,
2023-07-05 12:07:40 790
原创 【计算机视觉】对比学习综述(自己的一些理解)
具体做法为:对一个 batch 输入的图片,随机用不同的数据增强方法生成两个 view,对他们用相同的网络 结构进行特征提取,得到 y 和 y’,来自同一张图像的两个不同的表示构成一对正样本对,来自不同图像任意表示对为一对负样本对。从 InfoNCE loss 我们可以看出,增加负例的数量可以防止过拟合,与此同时,负例越多,这个任务的难度就越大,因而通过增加负例的方式可作为一个优化方向。-----》以上下划线。其核心是通过计算样本表示间的距离,拉近正样本, 拉远负样本,因而训练得到的模型能够区分正负例。
2023-07-04 17:04:55 1293
原创 【深度学习】Pytorch训练模型损失Loss为Nan或者无穷大(INF)原因
Pytorch训练模型损失Loss为Nan或者无穷大(INF)原因
2023-06-30 18:04:56 384
原创 【深度学习】contrastive loss与triplet loss
自己总结一下,三元组如果正负样本足够开,距离足够远,loss为0,因为模型已经学的不错了,不需要继续学习。最好的负样本是,model预测负样本的把握不太大的。如果负样本是很难分的,例如d(a,p)>=d(a,n),即负样本和anchor离的更近,loss是最大的,但模型不容易学出来。并且三元组loss每次只对一条样本(a,p,n)进行loss计算,不考虑其他的负样本。CLIP则是batch_size个样本一起做对比loss的,可以看到bs-1个负样本。对比loss都是bs-1个负样本一起计算的吗。
2023-06-29 19:57:17 1676
原创 【Python】Flask web生产环境部署gunicorn+nginx
简单理解,这里就是把原来接触的uWSGI这个包换成了Gunicorn。
2023-04-19 17:00:36 354 1
原创 【推荐系统】model 落地(样本/特征/预测服务)
其他章节一天访问量会有百亿级别,单机是无法满足服务,做分布式模型服务分布式模型服务-> 无状态,机器间不会被依赖一些结论用历史上一个训练好的模型做初始化,用过去一个月,或者是三个月的样本做全量训练。但此时,训练量是很大的,比如,今天用前30天的样本进行训练,明天用新增数据做增量训练,极大加快了模型的训练速度。有利于把最新的样本反应到 model 里面去,对用户、商品冷启都有好的效果。为什么在线特征定期同步给离线平台?——节约性能。
2023-04-16 23:38:22 1058
原创 【深度学习】classification_report
classification_report() 是python在机器学习中常用的输出模型评估报告的方法。主要参数:y_true:1维数组,或标签指示器数组/稀疏矩阵,目标值。y_pred:1维数组,或标签指示器数组/稀疏矩阵,分类器返回的估计值。labels:array,shape = [n_labels],报表中包含的标签索引的可选列表。target_names:字符串列表,与标签匹配的可选显示名称(相同顺序)。
2023-04-10 16:44:05 4462
原创 【计算机视觉】CLIP
在 CLIP 中相当于,同一张图片,图像数据增强后,第一个图片 经过 VIT 进行特征提取,返回特征 query 160,128;输入size,(4,3,256,256) ,为了序列化输入进 transformer 中,利用 patch 进行分块。4个图片,分别是猫、狗、猪、鸭。不能考虑自己,去掉对角线,得到520*519。to_cls_tokens(out) 求全局特征,cls_to_tokens=4,1,512。经过transformer 特征提取后,得到 out # 4,64,512(64个位置)
2023-04-05 00:36:50 1122 1
原创 【Python】json坑(持续更新)
python内置的json。dumps是将dict数据转化为str数据,但是dict数据中包含等等的时候,数据所以会报错。可能会遇到错误,也就是无法序列化某些对象格式。
2023-03-29 16:38:48 492
原创 【Pandas】Python中None、null和NaN
经常混淆。空值一般表示数据未知、不适用或将在以后添加数据。缺失值指数据集中某个或某些属性的值是不完整的。一般空值使用None表示,缺失值使用NaN表示。注意: python中没有null,但是有和其意义相近的None。
2023-03-28 20:49:05 6489
原创 【机器学习】验证集loss震荡(loss的其他问题)
训练过程中发现,train loss一直下降,train acc一直上升;但是val loss、val acc却一直震荡。loss一会上一会下,但是总体趋势是向下的。“loss震荡但验证集准确率总体下降” 如何解决?
2023-03-05 22:59:39 7736 2
原创 【Python】函数内未定义变量但能体内使用
mian()方法里没传参数,但是方法内部可以打印外部参数filename。让我们来看看chatgpt的回答。
2023-02-28 10:19:35 355
原创 【Pandas】列名不同关联两个dataframe
简单来说就是重命名其中一个列名,保持相同的列名进行关联。文章说这种left_on,right_on没有用。
2023-02-10 11:00:13 1414
原创 【营销】uplift建模方案-专利总结
之前准备写专利的时候浏览了一下其他公司的专利,对于one model,还是two model,基模型是什么做了简单总结。微众银行(CN 114282946 A)——two model(diff/ratio)浦发银行(CN 112446541 A)——one model(标签转换)同盾科技(CN 110807676)——two model(差分响应模型)因果推断和分配策略最优(分组背包)、two model(差值)京东(CN 113763019 A)——two model。
2023-01-17 11:11:44 933
原创 【Pytorch】pytorch Tried to access index 6040 out of table with 6039 rows
创建emb table需要给定数据+1,这个维度才能创建正确的table。pytorch 试图从具有 6039 行的表中访问索引 6040。创建的emb table只有6039行,但是输入的数据有6040。
2023-01-05 16:54:02 303 1
原创 【Python】logging 学习
将运行的日志存入'result.log'文件中。基础logging,在运行脚本中打印信息。result.log中内容如下,main.py调用日志文件。config.ini文件。
2023-01-03 14:53:49 264
原创 【机器学习】XGB实战—O2O优惠券使用预测
比赛地址:https://tianchi.aliyun.com/competition/entrance/231593/introduction。论坛:https://tianchi.aliyun.com/competition/entrance/231593/forum。数据字段需特别说明的,received_data 点击数据;used_data 消费数据;
2022-12-28 16:37:09 624
计算机图形学纹路和隐藏面
2015-10-29
安卓开发怎么与服务器进行连接
2015-10-27
opengl怎么把图片由平铺改为填充
2015-10-21
关于asp网页的显示问题
2015-10-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人