- 博客(1901)
- 资源 (385)
- 问答 (103)
- 收藏
- 关注
原创 GPT4 > 搜索引擎,如同 向量召回(做得好的话) > BM25文本召回
所以向量召回的结果起码会是BM25文本召回的补充。向量召回(做得好的话)的结果是。BM25文本召回的结果是。
2024-07-24 14:24:53 17
原创 多国语言的词根提取
下载libstemmer-java(https://download.csdn.net/download/guotong1988/89574039)解压,把整个目录放到IDE里。
2024-07-24 11:36:23 19
原创 Spark报错,Task not serializable
objectA调用了objectB里面的一个方法methodB。objectB也调了objectA里面的一个方法methodA。可能是有两个Object:objectA,objectB。
2024-07-23 15:02:59 20
原创 【NLP】提升文本生成多样性的实用方法
可以每训练3个epoch保存一个模型参数,最终可保存5个模型参数,预测时5个模型结果分别 对同样的输入文本 各预测一次,如果只有几千条fine-tune数据,实测可提升50%的多样生成结果。
2024-07-22 11:09:37 201
原创 CTR模型对特征的“理解能力”其实严重被高估
那把tag_a1,tag_a2,tag_a3作为特征,效果上不能完全替代tag_A,就是tag_A最好也作为特征加入。又比如,item的tag_A下面有子tag:tag_a1,tag_a2,tag_a3,同时,当然 点击次数 也作为特征,远不如直接把 点击率 作为特征。比如 曝光次数 作为特征,
2024-07-17 17:39:48 85
原创 CTR模型,训练多少epoch合适
如果随着epoch增加,test-AUC和train-AUC都不再提升,选择AUC不再增加之前的最后一个epoch。选择test-AUC和train-AUC都比较高的epoch,除了看test-AUC,也打印出train-AUC,
2024-07-03 09:02:01 113
原创 【推荐系统-特征工程】体现“分类性”(discriminative)的特征制作
二,user对每个tag-value值的一个“Map”,占50位特征在user侧,每位是user对每个tag下单的单量,其中第一种方式,对于15位的第一位,可以反映user最偏好的tag,最能体现分类性(discriminative),三,user对tag的交叉特征,即一共1位特征对于user侧,值为user对item的tag的下单量,一,user高下单tag-id-list,占比如15位特征在user侧,如果item的1种tag可有50个tag-value,
2024-06-28 09:19:11 105
原创 【推荐系统】加了特征,模型在不同天预测AUC波动大
比如统计date-7day到date的特征,作为date这天的特征的bug,实际应该作为date+1day的特征。就是训练集的该特征和测试集的该特征一样,新加的特征有特征穿越的bug,
2024-06-23 11:00:57 123
原创 【推荐系统】加上user对item的tag点击/购买最高的tag-id作为user侧特征(的特征穿越的坑)
如果用所有天的user-click-tag-id-list-top15作为user侧特征,那么会有特征穿越,就是比如用1月1日-3月1日的数据训练,预测3月2日-3月7日的AUC,但是生产所有天的user-click-tag-id-list-top15的时候,是统计的每个user的1月1日到3月15日的click-tag-count。把user点击/购买item的tag-id-list的top15作为user侧新加特征,
2024-06-23 09:50:28 239
原创 安装torch时指定cuda版本
举例:conda install pytorch0.18.0 torchaudio==2.3.0 pytorch-cuda=11.8 -c pytorch -c nvidiaconda install pytorch0.18.0 torchaudio==2.3.0 pytorch-cuda=12.1 -c pytorch -c nvidiaconda install pytorch0.18.0 torchaudio==2.3.0 cpuonly -c pytorch。
2024-06-21 10:43:52 240
原创 【推荐系统】加了特征,train-AUC涨了,test-AUC跌了
如果是用1月1日-5月1日的四个月数据训练,然后去预测5月2日一天的数据作为test-AUC,可能就是5月2日这一天对比Base的test-AUC跌了,可以试试预测其他天。因为加的特征在不同天,无bug的前提下,会导致test-AUC不稳定。
2024-06-18 17:05:27 147
原创 【推荐系统】CTR模型,判断特征值如果有问题 对线上的影响
如果是用1月1日-5月1日的五个月数据训练,然后去预测5月2日一天的数据作为dev-AUC,那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,把5月15日那天的相应的特征,改为默认值或错误值,看预测的AUC多少,就知道了。
2024-06-16 18:25:46 91
原创 【推荐系统】如何确认自己的CTR模型离线没问题
如果AUC有问题,说明模型只是原来在5月2日的表现好,而上线后的5月15日就是模型不好。那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,如果是用1月1日-5月1日的数据训练,然后去预测5月2日的数据作为dev-AUC,如果AUC没问题,说明不是模型离线部分的问题,可确认是线上有什么问题,
2024-06-16 18:21:31 94
原创 【推荐系统】CTR模型加了特征,用少量数据训test-AUC涨了,用大量数据训test-AUC跌了很多
如果test-AUC也高了,说明测试代码是正常的,是模型过拟合 —> 减少MLP参数量。如果test-AUC还是低,说明测试代码有错,和训练代码不一样,需要排查代码。加了特征,如果train-AUC高了,但test-AUC低了很多。可以把测试集改为训练集,这样之后。先打印出train-AUC。
2024-06-07 19:56:02 202
原创 【tensorflow】在tf.estimator.EstimatorSpec打印train-AUC
【代码】【tensorflow】在tf.estimator.EstimatorSpec打印train-AUC。
2024-06-05 15:27:06 54
原创 【tensorflow】TypeError: Failed to convert SparseTensor to Tensor
但训练时传入的每个值长度不一,有100长度,有50长度。这个placeholder定义是。
2024-06-05 10:27:17 39
原创 【Spark】对array<bigint>类型的列里的null值填充
【代码】【Spark】对array<bigint>类型的列里的null值填充。
2024-06-05 07:07:27 315 1
原创 【推荐系统-特征工程】把item的tag加工为特征的三种方式
3,作为交叉特征,即存下user对(item的)每个tag的订单量,在模型训练时,每条训练数据有user列和tag列,tag列的每个值是user对该tag订单量,在模型预测时,输入user和tag,取到user对该tag的订单量 输入模型。1,高订单tag-id的top1-10的id,作为user的单侧10维特征,即一个list作为单侧特征。2,高订单tag-id的top1-10的订单量,作为user的单侧10维特征,即一个map作为单侧特征。缺点:丢失了tag-rank10以外的tag信息;
2024-06-03 13:36:51 164
原创 【推荐系统-特征工程】切换 提升clickAUC 还是 提升payAUC
统计高点击的item类目id-list作为user特征,则离线跑出的AUC向clickAUC倾斜。统计高订单的item类目id-list作为user特征,则离线跑出的AUC向payAUC倾斜,
2024-06-03 11:58:32 244
原创 使用Stanford-CoreNLP命令行进行分词
建议看源码使用 https://github.com/stanfordnlp/CoreNLP/blob/main/src/edu/stanford/nlp/international/arabic/process/ArabicTokenizer.java。接上文 https://blog.csdn.net/guotong1988/article/details/136652691。
2024-05-29 17:45:17 77
原创 【推荐系统-特征工程】按每个日期生产特征的大忌 / 小心特征穿越
对于每个date,生产这个date前7天的某特征,SQL要用between这种逻辑。
2024-05-26 23:21:11 113
原创 【Spark加速】加大hive表在HDFS存的分片文件大小
配置参数:spark.hadoop.hive.exec.orc.default.stripe.size=78643200spark.hadoop.orc.stripe.size=78643200spark.hadoopRDD.targetBytesInPartition=78643200spark.hadoop.hive.exec.dynamic.partition.mode=nonstrictspark.sql.sources.partitionOverwriteMode=dynamicspa
2024-05-26 10:22:22 79
原创 【推荐系统】离线提升ctrAUC不如提升cxrAUC
如果 离线ctrAUC(clickAUC)提升大,cxrAUC(payAUC)没提升,会发现线上CTR提升很多,但CVR降低很多,最终CXR不涨。
2024-05-23 09:16:33 112
原创 【推荐算法-特征工程】每种item单侧特征,都可产生对应user单侧特征
那么对应user对item的click用户行为,就能产生user-click的十个档位作为特征值 作为user的标签。那么对应user对item的click用户行为,也能产生20哥档位的特征值 作为user的标签。比如item的平均点击率,也可以分成比如20个档位,作为一个标签值打在item上,比如item的平均成单价格,可以分成十个档位,作为一个标签值打在item上,
2024-05-21 15:01:12 346
Qwen2-7B-Instruct 的 model-00004-of-00004.safetensors 的2/2
2024-07-26
Qwen2-7B-Instruct 的 model-00004-of-00004.safetensors 的1/2
2024-07-26
Qwen2-7B-Instruct 的 model-00003-of-00004.safetensors 的2/2
2024-07-26
Qwen2-7B-Instruct 的 model-00003-of-00004.safetensors 的1/2
2024-07-26
Qwen2-7B-Instruct 的 model-00002-of-00004.safetensors 的2/2
2024-07-26
Qwen2-7B-Instruct 的 model-00002-of-00004.safetensors 的1/2
2024-07-26
Qwen2-7B-Instruct 的 model-00001-of-00004.safetensors 的2/2
2024-07-25
Qwen2-7B-Instruct 的 model-00001-of-00004.safetensors 的1/2
2024-07-25
torch-2.3.0+cu118-cp38-cp38-linux-x86-64.whl
2024-06-24
meta-llama-3-8b-instruct 的 model-00004-of-00004.safetensors
2024-05-29
meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的3/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的1/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的3/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的2/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的1/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的3/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3
2024-05-29
meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的1/3
2024-05-29
huggingface的bert-base-chinese
2024-03-05
huggingface的bert-base-uncased
2024-03-03
Deep (Convolution) Networks from First Principles by马毅老师
2023-09-26
NLPIR新闻语料库(2400万字)
2023-08-30
CLUE AFQMC 语义相似度 数据集
2023-07-24
CLUE TNEWS 文本分类数据集
2023-07-24
MovieLens 20M Dataset
2022-05-31
MovieLens 25M Dataset
2022-05-17
自动驾驶,如何得到方向盘转动的ground truth?
2024-03-18
AlphaGo能超越人类,因为训练时 对于模型的每个输入,都有一个100%正确的答案?
2024-01-16
其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远?
2024-01-16
技术上,ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力?
2024-01-11
数学 是且仅是 一种语言和一种工具,不是科学的全部?
2023-12-14
哪些时候用CUDA编程更好?
2023-12-14
用RL做NLP,和 根据那条数据的reward重新标注那条数据 有什么区别?
2022-05-07
没有物理机器人载体,如何在模拟环境里的进行学习和研究机器人?
2022-04-28
2022年了,USB式GPU有哪些进展?
2022-04-28
2022年了,有哪些稳压deepfm的CTR模型?
2022-04-01
CTR模型,如果上线了没效果,这时可以进行哪些分析工作?以及有无必要投入大量时间分析?
2022-03-24
算法工程师如何应对做算法策略的不确定性;比如没效果,这时绩效怎么保证?
2022-03-01
CTR模型必须要有一个测试数据集吗? 训练数据集和测试数据集是同一个,可以吗?
2022-02-25
为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具?
2022-02-16
因果推断技术靠谱吗,感觉里面的影响因素太多了,所以能实际解决落地问题吗?
2022-02-08
XGB/GBDT/决策树,得出特征重要性的原理是什么?
2022-02-08
强化学习是不是无人驾驶的未来?
2022-02-01
GAN生成图像,弄一个discriminator ,和无D直接生成,区别是?
2022-02-01
哪些互联网公司的管理职级和专业职级是分开的?
2022-01-22
CTR模型的AUC如果比较高,是否其实只是 因为复购行为带来的AUC虚高?
2022-01-17
CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配?
2022-01-08
人工智能的因果学习(Causal Learning)到底想解决什么问题?
2021-12-17
BYOL里stop-gradient的作用是什么?
2021-12-01
马上2022年了,强化学习+NLP 有了哪些突破?
2021-11-26
马上2022年了,pointer-network现在看来的作用是什么?
2021-11-26
总被主管说文档写的不好怎么办?
2021-11-18
NER任务只有一个类的情况下,BME或者Yes-No的数据预处理方式对结果有影响吗?
2021-11-08
学好数学对于编程的真实增益的性价比到底如何?
2021-11-03
学好数学对于编程的真实增益到底是多少?
2021-11-03
如果说每一个数学公式都在描述一件事情,那么数学公式的推导,是在做什么?
2021-10-26
每个物理公式是否都是在【描述】一个事情?
2021-10-12
求通俗讲讲数学或理论物理进行研究的细节,复杂公式是不是也都是由基础公式而来?
2021-09-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人