- 博客(1898)
- 资源 (385)
- 问答 (103)
- 收藏
- 关注
原创 【NLP】提升文本生成多样性的实用方法
可以每训练3个epoch保存一个模型参数,最终可保存5个模型参数,预测时5个模型结果分别 对同样的输入文本 各预测一次,如果只有几千条fine-tune数据,实测可提升50%的多样生成结果。
2024-07-22 11:09:37
14
原创 CTR模型对特征的“理解能力”其实严重被高估
那把tag_a1,tag_a2,tag_a3作为特征,效果上不能完全替代tag_A,就是tag_A最好也作为特征加入。又比如,item的tag_A下面有子tag:tag_a1,tag_a2,tag_a3,同时,当然 点击次数 也作为特征,远不如直接把 点击率 作为特征。比如 曝光次数 作为特征,
2024-07-17 17:39:48
77
原创 CTR模型,训练多少epoch合适
如果随着epoch增加,test-AUC和train-AUC都不再提升,选择AUC不再增加之前的最后一个epoch。选择test-AUC和train-AUC都比较高的epoch,除了看test-AUC,也打印出train-AUC,
2024-07-03 09:02:01
105
原创 【推荐系统-特征工程】体现“分类性”(discriminative)的特征制作
二,user对每个tag-value值的一个“Map”,占50位特征在user侧,每位是user对每个tag下单的单量,其中第一种方式,对于15位的第一位,可以反映user最偏好的tag,最能体现分类性(discriminative),三,user对tag的交叉特征,即一共1位特征对于user侧,值为user对item的tag的下单量,一,user高下单tag-id-list,占比如15位特征在user侧,如果item的1种tag可有50个tag-value,
2024-06-28 09:19:11
102
原创 【推荐系统】加了特征,模型在不同天预测AUC波动大
比如统计date-7day到date的特征,作为date这天的特征的bug,实际应该作为date+1day的特征。就是训练集的该特征和测试集的该特征一样,新加的特征有特征穿越的bug,
2024-06-23 11:00:57
115
原创 【推荐系统】加上user对item的tag点击/购买最高的tag-id作为user侧特征(的特征穿越的坑)
如果用所有天的user-click-tag-id-list-top15作为user侧特征,那么会有特征穿越,就是比如用1月1日-3月1日的数据训练,预测3月2日-3月7日的AUC,但是生产所有天的user-click-tag-id-list-top15的时候,是统计的每个user的1月1日到3月15日的click-tag-count。把user点击/购买item的tag-id-list的top15作为user侧新加特征,
2024-06-23 09:50:28
226
原创 安装torch时指定cuda版本
举例:conda install pytorch0.18.0 torchaudio==2.3.0 pytorch-cuda=11.8 -c pytorch -c nvidiaconda install pytorch0.18.0 torchaudio==2.3.0 pytorch-cuda=12.1 -c pytorch -c nvidiaconda install pytorch0.18.0 torchaudio==2.3.0 cpuonly -c pytorch。
2024-06-21 10:43:52
192
原创 【推荐系统】加了特征,train-AUC涨了,test-AUC跌了
如果是用1月1日-5月1日的四个月数据训练,然后去预测5月2日一天的数据作为test-AUC,可能就是5月2日这一天对比Base的test-AUC跌了,可以试试预测其他天。因为加的特征在不同天,无bug的前提下,会导致test-AUC不稳定。
2024-06-18 17:05:27
145
原创 【推荐系统】CTR模型,判断特征值如果有问题 对线上的影响
如果是用1月1日-5月1日的五个月数据训练,然后去预测5月2日一天的数据作为dev-AUC,那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,把5月15日那天的相应的特征,改为默认值或错误值,看预测的AUC多少,就知道了。
2024-06-16 18:25:46
89
原创 【推荐系统】如何确认自己的CTR模型离线没问题
如果AUC有问题,说明模型只是原来在5月2日的表现好,而上线后的5月15日就是模型不好。那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,如果是用1月1日-5月1日的数据训练,然后去预测5月2日的数据作为dev-AUC,如果AUC没问题,说明不是模型离线部分的问题,可确认是线上有什么问题,
2024-06-16 18:21:31
89
原创 【推荐系统】CTR模型加了特征,用少量数据训test-AUC涨了,用大量数据训test-AUC跌了很多
如果test-AUC也高了,说明测试代码是正常的,是模型过拟合 —> 减少MLP参数量。如果test-AUC还是低,说明测试代码有错,和训练代码不一样,需要排查代码。加了特征,如果train-AUC高了,但test-AUC低了很多。可以把测试集改为训练集,这样之后。先打印出train-AUC。
2024-06-07 19:56:02
198
原创 【tensorflow】在tf.estimator.EstimatorSpec打印train-AUC
【代码】【tensorflow】在tf.estimator.EstimatorSpec打印train-AUC。
2024-06-05 15:27:06
50
原创 【tensorflow】TypeError: Failed to convert SparseTensor to Tensor
但训练时传入的每个值长度不一,有100长度,有50长度。这个placeholder定义是。
2024-06-05 10:27:17
31
原创 【Spark】对array<bigint>类型的列里的null值填充
【代码】【Spark】对array<bigint>类型的列里的null值填充。
2024-06-05 07:07:27
273
1
原创 【推荐系统-特征工程】把item的tag加工为特征的三种方式
3,作为交叉特征,即存下user对(item的)每个tag的订单量,在模型训练时,每条训练数据有user列和tag列,tag列的每个值是user对该tag订单量,在模型预测时,输入user和tag,取到user对该tag的订单量 输入模型。1,高订单tag-id的top1-10的id,作为user的单侧10维特征,即一个list作为单侧特征。2,高订单tag-id的top1-10的订单量,作为user的单侧10维特征,即一个map作为单侧特征。缺点:丢失了tag-rank10以外的tag信息;
2024-06-03 13:36:51
162
原创 【推荐系统-特征工程】切换 提升clickAUC 还是 提升payAUC
统计高点击的item类目id-list作为user特征,则离线跑出的AUC向clickAUC倾斜。统计高订单的item类目id-list作为user特征,则离线跑出的AUC向payAUC倾斜,
2024-06-03 11:58:32
241
原创 使用Stanford-CoreNLP命令行进行分词
建议看源码使用 https://github.com/stanfordnlp/CoreNLP/blob/main/src/edu/stanford/nlp/international/arabic/process/ArabicTokenizer.java。接上文 https://blog.csdn.net/guotong1988/article/details/136652691。
2024-05-29 17:45:17
75
原创 【推荐系统-特征工程】按每个日期生产特征的大忌 / 小心特征穿越
对于每个date,生产这个date前7天的某特征,SQL要用between这种逻辑。
2024-05-26 23:21:11
109
原创 【Spark加速】加大hive表在HDFS存的分片文件大小
配置参数:spark.hadoop.hive.exec.orc.default.stripe.size=78643200spark.hadoop.orc.stripe.size=78643200spark.hadoopRDD.targetBytesInPartition=78643200spark.hadoop.hive.exec.dynamic.partition.mode=nonstrictspark.sql.sources.partitionOverwriteMode=dynamicspa
2024-05-26 10:22:22
77
原创 【推荐系统】离线提升ctrAUC不如提升cxrAUC
如果 离线ctrAUC(clickAUC)提升大,cxrAUC(payAUC)没提升,会发现线上CTR提升很多,但CVR降低很多,最终CXR不涨。
2024-05-23 09:16:33
110
原创 【推荐算法-特征工程】每种item单侧特征,都可产生对应user单侧特征
那么对应user对item的click用户行为,就能产生user-click的十个档位作为特征值 作为user的标签。那么对应user对item的click用户行为,也能产生20哥档位的特征值 作为user的标签。比如item的平均点击率,也可以分成比如20个档位,作为一个标签值打在item上,比如item的平均成单价格,可以分成十个档位,作为一个标签值打在item上,
2024-05-21 15:01:12
344
原创 用 scipy.optimize.minimize 的意义
比如在推荐系统中,X是ctr的模型预测值,Y是cxr的模型预测值,要综合ctr和cxr得出一个最终的排序分数,即。问题是如何确定a和b让对于所有的X_list和Y_list,c最小或最大,其中X和Y是X_list和Y_list的两组值,来确定aX+bY=c里的a和b,
2024-05-17 15:29:46
101
原创 the definition of my AGI should be defined
AGI should outperform human in performance, not in speed.So calculator is not AGI, because calculator only outperform human in speed.AlphaGo is a kind of AGI.ChatGPT’s baseline is a human with the search engine, so ChatGPT is not AGI.
2024-05-15 15:00:00
136
torch-2.3.0+cu118-cp38-cp38-linux-x86-64.whl
2024-06-24
meta-llama-3-8b-instruct 的 model-00004-of-00004.safetensors
2024-05-29
meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的3/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的1/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的3/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的2/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的1/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的3/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的1/3
2024-05-29
huggingface的bert-base-chinese
2024-03-05
huggingface的bert-base-uncased
2024-03-03
Deep (Convolution) Networks from First Principles by马毅老师
2023-09-26
NLPIR新闻语料库(2400万字)
2023-08-30
CLUE AFQMC 语义相似度 数据集
2023-07-24
CLUE TNEWS 文本分类数据集
2023-07-24
MovieLens 20M Dataset
2022-05-31
MovieLens 25M Dataset
2022-05-17
criteo dataset(CTR数据集)part3
2022-03-27
criteo dataset(CTR数据集)part2
2022-03-27
criteo dataset(CTR数据集)part1
2022-03-27
自动驾驶,如何得到方向盘转动的ground truth?
2024-03-18
AlphaGo能超越人类,因为训练时 对于模型的每个输入,都有一个100%正确的答案?
2024-01-16
其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远?
2024-01-16
技术上,ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力?
2024-01-11
数学 是且仅是 一种语言和一种工具,不是科学的全部?
2023-12-14
哪些时候用CUDA编程更好?
2023-12-14
用RL做NLP,和 根据那条数据的reward重新标注那条数据 有什么区别?
2022-05-07
没有物理机器人载体,如何在模拟环境里的进行学习和研究机器人?
2022-04-28
2022年了,USB式GPU有哪些进展?
2022-04-28
2022年了,有哪些稳压deepfm的CTR模型?
2022-04-01
CTR模型,如果上线了没效果,这时可以进行哪些分析工作?以及有无必要投入大量时间分析?
2022-03-24
算法工程师如何应对做算法策略的不确定性;比如没效果,这时绩效怎么保证?
2022-03-01
CTR模型必须要有一个测试数据集吗? 训练数据集和测试数据集是同一个,可以吗?
2022-02-25
为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具?
2022-02-16
因果推断技术靠谱吗,感觉里面的影响因素太多了,所以能实际解决落地问题吗?
2022-02-08
XGB/GBDT/决策树,得出特征重要性的原理是什么?
2022-02-08
强化学习是不是无人驾驶的未来?
2022-02-01
GAN生成图像,弄一个discriminator ,和无D直接生成,区别是?
2022-02-01
哪些互联网公司的管理职级和专业职级是分开的?
2022-01-22
CTR模型的AUC如果比较高,是否其实只是 因为复购行为带来的AUC虚高?
2022-01-17
CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配?
2022-01-08
人工智能的因果学习(Causal Learning)到底想解决什么问题?
2021-12-17
BYOL里stop-gradient的作用是什么?
2021-12-01
马上2022年了,强化学习+NLP 有了哪些突破?
2021-11-26
马上2022年了,pointer-network现在看来的作用是什么?
2021-11-26
总被主管说文档写的不好怎么办?
2021-11-18
NER任务只有一个类的情况下,BME或者Yes-No的数据预处理方式对结果有影响吗?
2021-11-08
学好数学对于编程的真实增益的性价比到底如何?
2021-11-03
学好数学对于编程的真实增益到底是多少?
2021-11-03
如果说每一个数学公式都在描述一件事情,那么数学公式的推导,是在做什么?
2021-10-26
每个物理公式是否都是在【描述】一个事情?
2021-10-12
求通俗讲讲数学或理论物理进行研究的细节,复杂公式是不是也都是由基础公式而来?
2021-09-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人