自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Talk Is Cheap

If You Get Tired, Learn To Rest, Not To Quit

  • 博客(1898)
  • 资源 (385)
  • 问答 (103)
  • 收藏
  • 关注

原创 【推荐系统】特征一致性的困局

加更多特征,特征一致性问题越大,则线上效果不好靠加特征提升。特征越多,特征一致性有问题的特征越多,

2024-07-22 11:37:38 36

原创 【NLP】提升文本生成多样性的实用方法

可以每训练3个epoch保存一个模型参数,最终可保存5个模型参数,预测时5个模型结果分别 对同样的输入文本 各预测一次,如果只有几千条fine-tune数据,实测可提升50%的多样生成结果。

2024-07-22 11:09:37 14

原创 python,从n个不同元素中取出r个元素的所有不同组合

即 nCr,which represents “n choose r”

2024-07-22 09:30:11 26

原创 fastjson,toJSONString代码实例

【代码】fastjson,toJSONString代码实例。

2024-07-18 17:09:03 68

原创 CTR模型对特征的“理解能力”其实严重被高估

那把tag_a1,tag_a2,tag_a3作为特征,效果上不能完全替代tag_A,就是tag_A最好也作为特征加入。又比如,item的tag_A下面有子tag:tag_a1,tag_a2,tag_a3,同时,当然 点击次数 也作为特征,远不如直接把 点击率 作为特征。比如 曝光次数 作为特征,

2024-07-17 17:39:48 77

原创 Java/Scala,去掉括号里的内容

【代码】Scala,去掉括号里的内容。

2024-07-15 16:43:55 96

原创 CTR模型,训练多少epoch合适

如果随着epoch增加,test-AUC和train-AUC都不再提升,选择AUC不再增加之前的最后一个epoch。选择test-AUC和train-AUC都比较高的epoch,除了看test-AUC,也打印出train-AUC,

2024-07-03 09:02:01 105

原创 Spark报错 No Encoder found for AnyVal

比如 这列的值有int也有float,就会报这个错。

2024-07-01 19:37:39 31

原创 【推荐系统-特征工程】体现“分类性”(discriminative)的特征制作

二,user对每个tag-value值的一个“Map”,占50位特征在user侧,每位是user对每个tag下单的单量,其中第一种方式,对于15位的第一位,可以反映user最偏好的tag,最能体现分类性(discriminative),三,user对tag的交叉特征,即一共1位特征对于user侧,值为user对item的tag的下单量,一,user高下单tag-id-list,占比如15位特征在user侧,如果item的1种tag可有50个tag-value,

2024-06-28 09:19:11 102

原创 【SQL】where语句中使用if

【代码】【SQL】where语句中使用if。

2024-06-24 19:58:46 118

原创 scala 编辑距离

【代码】scala 编辑距离。

2024-06-24 09:17:04 265

原创 【推荐系统-特征工程】避坑特征穿越--不能用到“未来”的日志

这天的数据,基于这天之前7天的日志,

2024-06-24 09:04:41 111

原创 【推荐系统】加了特征,模型在不同天预测AUC波动大

比如统计date-7day到date的特征,作为date这天的特征的bug,实际应该作为date+1day的特征。就是训练集的该特征和测试集的该特征一样,新加的特征有特征穿越的bug,

2024-06-23 11:00:57 115

原创 【推荐系统】加上user对item的tag点击/购买最高的tag-id作为user侧特征(的特征穿越的坑)

如果用所有天的user-click-tag-id-list-top15作为user侧特征,那么会有特征穿越,就是比如用1月1日-3月1日的数据训练,预测3月2日-3月7日的AUC,但是生产所有天的user-click-tag-id-list-top15的时候,是统计的每个user的1月1日到3月15日的click-tag-count。把user点击/购买item的tag-id-list的top15作为user侧新加特征,

2024-06-23 09:50:28 226

原创 安装cuda11.8版本的torch

在这里可以下载cuda11.8版本的不同版本的torch都有。

2024-06-22 22:10:15 137

原创 安装torch时指定cuda版本

举例:conda install pytorch0.18.0 torchaudio==2.3.0 pytorch-cuda=11.8 -c pytorch -c nvidiaconda install pytorch0.18.0 torchaudio==2.3.0 pytorch-cuda=12.1 -c pytorch -c nvidiaconda install pytorch0.18.0 torchaudio==2.3.0 cpuonly -c pytorch。

2024-06-21 10:43:52 192

原创 【java/scala】regex/正则,保留英文/空格/中文/数字

【代码】【java/scala】regex/正则,保留英文和空格。

2024-06-20 11:37:12 95

原创 【推荐系统】加了特征,train-AUC涨了,test-AUC跌了

如果是用1月1日-5月1日的四个月数据训练,然后去预测5月2日一天的数据作为test-AUC,可能就是5月2日这一天对比Base的test-AUC跌了,可以试试预测其他天。因为加的特征在不同天,无bug的前提下,会导致test-AUC不稳定。

2024-06-18 17:05:27 145

原创 python和命令行查看cuda版本

命令行,有哪些cuda。

2024-06-18 10:19:06 42

原创 把LLAMA3的参数文件从safetensors转为pth格式

【代码】把LLAMA3的参数文件从safetensors转为pth格式。

2024-06-17 11:44:48 103

原创 【推荐系统】CTR模型,判断特征值如果有问题 对线上的影响

如果是用1月1日-5月1日的五个月数据训练,然后去预测5月2日一天的数据作为dev-AUC,那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,把5月15日那天的相应的特征,改为默认值或错误值,看预测的AUC多少,就知道了。

2024-06-16 18:25:46 89

原创 【推荐系统】如何确认自己的CTR模型离线没问题

如果AUC有问题,说明模型只是原来在5月2日的表现好,而上线后的5月15日就是模型不好。那么现在到了5月15日这天上线了,那么用模型去预测5月15日的特征数据,看AUC怎样,如果是用1月1日-5月1日的数据训练,然后去预测5月2日的数据作为dev-AUC,如果AUC没问题,说明不是模型离线部分的问题,可确认是线上有什么问题,

2024-06-16 18:21:31 89

原创 【推荐系统】CTR模型加了特征,用少量数据训test-AUC涨了,用大量数据训test-AUC跌了很多

如果test-AUC也高了,说明测试代码是正常的,是模型过拟合 —> 减少MLP参数量。如果test-AUC还是低,说明测试代码有错,和训练代码不一样,需要排查代码。加了特征,如果train-AUC高了,但test-AUC低了很多。可以把测试集改为训练集,这样之后。先打印出train-AUC。

2024-06-07 19:56:02 198

原创 【tensorflow】在tf.estimator.EstimatorSpec打印train-AUC

【代码】【tensorflow】在tf.estimator.EstimatorSpec打印train-AUC。

2024-06-05 15:27:06 50

原创 【tensorflow】TypeError: Failed to convert SparseTensor to Tensor

但训练时传入的每个值长度不一,有100长度,有50长度。这个placeholder定义是。

2024-06-05 10:27:17 31

原创 【Spark】对array<bigint>类型的列里的null值填充

【代码】【Spark】对array<bigint>类型的列里的null值填充。

2024-06-05 07:07:27 273 1

原创 【Spark】直接从DataFrame的schema创建表

然后insert数据。

2024-06-04 16:20:41 481 2

原创 【推荐系统-特征工程】把item的tag加工为特征的三种方式

3,作为交叉特征,即存下user对(item的)每个tag的订单量,在模型训练时,每条训练数据有user列和tag列,tag列的每个值是user对该tag订单量,在模型预测时,输入user和tag,取到user对该tag的订单量 输入模型。1,高订单tag-id的top1-10的id,作为user的单侧10维特征,即一个list作为单侧特征。2,高订单tag-id的top1-10的订单量,作为user的单侧10维特征,即一个map作为单侧特征。缺点:丢失了tag-rank10以外的tag信息;

2024-06-03 13:36:51 162

原创 【推荐系统-特征工程】切换 提升clickAUC 还是 提升payAUC

统计高点击的item类目id-list作为user特征,则离线跑出的AUC向clickAUC倾斜。统计高订单的item类目id-list作为user特征,则离线跑出的AUC向payAUC倾斜,

2024-06-03 11:58:32 241

原创 使用Stanford-CoreNLP命令行进行分词

建议看源码使用 https://github.com/stanfordnlp/CoreNLP/blob/main/src/edu/stanford/nlp/international/arabic/process/ArabicTokenizer.java。接上文 https://blog.csdn.net/guotong1988/article/details/136652691。

2024-05-29 17:45:17 75

原创 【推荐系统-特征工程】按每个日期生产特征的大忌 / 小心特征穿越

对于每个date,生产这个date前7天的某特征,SQL要用between这种逻辑。

2024-05-26 23:21:11 109

原创 【Spark加速】加大hive表在HDFS存的分片文件大小

配置参数:spark.hadoop.hive.exec.orc.default.stripe.size=78643200spark.hadoop.orc.stripe.size=78643200spark.hadoopRDD.targetBytesInPartition=78643200spark.hadoop.hive.exec.dynamic.partition.mode=nonstrictspark.sql.sources.partitionOverwriteMode=dynamicspa

2024-05-26 10:22:22 77

原创 【Spark】调整hive表在HDFS存的每个文件的大小

【代码】hive表在HDFS的每个文件的大小。

2024-05-24 11:27:47 139

原创 【SQL】where in 里的多个值的中间少逗号也能执行,是坑!

【代码】【SQL】where in 里的多个值,中间少逗号也能执行,是坑!

2024-05-23 10:51:31 103

原创 【推荐系统】离线提升ctrAUC不如提升cxrAUC

如果 离线ctrAUC(clickAUC)提升大,cxrAUC(payAUC)没提升,会发现线上CTR提升很多,但CVR降低很多,最终CXR不涨。

2024-05-23 09:16:33 110

原创 【推荐算法-特征工程】每种item单侧特征,都可产生对应user单侧特征

那么对应user对item的click用户行为,就能产生user-click的十个档位作为特征值 作为user的标签。那么对应user对item的click用户行为,也能产生20哥档位的特征值 作为user的标签。比如item的平均点击率,也可以分成比如20个档位,作为一个标签值打在item上,比如item的平均成单价格,可以分成十个档位,作为一个标签值打在item上,

2024-05-21 15:01:12 344

原创 【hive-SQL】switch case 的实现

【代码】【hive-SQL】switch case 的实现。

2024-05-17 17:35:41 140

原创 用 scipy.optimize.minimize 的意义

比如在推荐系统中,X是ctr的模型预测值,Y是cxr的模型预测值,要综合ctr和cxr得出一个最终的排序分数,即。问题是如何确定a和b让对于所有的X_list和Y_list,c最小或最大,其中X和Y是X_list和Y_list的两组值,来确定aX+bY=c里的a和b,

2024-05-17 15:29:46 101

原创 Latex 修改math的样式

【代码】Latex 修改math的样式。

2024-05-17 10:22:03 166

原创 the definition of my AGI should be defined

AGI should outperform human in performance, not in speed.So calculator is not AGI, because calculator only outperform human in speed.AlphaGo is a kind of AGI.ChatGPT’s baseline is a human with the search engine, so ChatGPT is not AGI.

2024-05-15 15:00:00 136

torch-2.3.0+cu118-cp38-cp38-linux-x86-64.whl

pip3 install torch-2.3.0+cu118-cp38-cp38-linux_x86_64.whl

2024-06-24

meta-llama-3-8b-instruct 的 model-00004-of-00004.safetensors

meta-llama-3-8b-instruct 的 model-00004-of-00004.safetensors

2024-05-29

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的3/3

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的3/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的1/3

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的1/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的3/3

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的3/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的2/3

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的2/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的1/3

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的1/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的3/3

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的3/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的1/3

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的1/3

2024-05-29

stanford-corenlp-4.5.6.zip

https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip

2024-03-12

huggingface的bert-base-chinese

https://huggingface.co/google-bert/bert-base-chinese pytorch和tensorflow都有

2024-03-05

huggingface的bert-base-uncased

https://huggingface.co/google-bert/bert-base-uncased pytorch和tensorflow都有

2024-03-03

TREC-6 文本分类数据集

https://www.tensorflow.org/datasets/catalog/trec

2024-02-22

chatglm3-6b的模型参数文件0/7

这个是除了7个大文件之外的所有小文件

2023-11-30

chatglm3-6b的模型参数文件6/7

chatglm3-6b的模型参数文件6/7

2023-11-29

chatglm3-6b的模型参数文件5/7

chatglm3-6b的模型参数文件5/7

2023-11-29

chatglm3-6b的模型参数文件4/7

chatglm3-6b的模型参数文件4/7

2023-11-29

chatglm3-6b的模型参数文件7/7

chatglm3-6b的模型参数文件7/7

2023-11-28

chatglm3-6b的模型参数文件3/7

chatglm3-6b的模型参数文件3/7

2023-11-28

chatglm3-6b的模型参数文件2/7

chatglm3-6b的模型参数文件2/7

2023-11-28

chatglm3-6b的模型参数文件1/7

chatglm3-6b的模型参数文件1/7

2023-11-28

Deep (Convolution) Networks from First Principles by马毅老师

Deep (Convolution) Networks from First Principles by马毅老师

2023-09-26

NLPIR新闻语料库(2400万字)

1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。

2023-08-30

CLUE AFQMC 语义相似度 数据集

蚂蚁金融语义相似度 Ant Financial Question Matching Corpus 数据量:训练集(34334)验证集(4316)测试集(3861)

2023-07-24

CLUE TNEWS 文本分类数据集

今日头条中文新闻(短文本)分类 Short Text Classificaiton for News 数据量:训练集(53,360),验证集(10,000),测试集(10,000)

2023-07-24

Linux-CentOS编译好的python3.8,解决了ssl相关问题

Linux-CentOS编译好的python3.8,解决了ssl相关问题

2023-02-17

MovieLens 20M Dataset

MovieLens 20M movie ratings. Stable benchmark dataset. 20 million ratings and 465,000 tag applications applied to 27,000 movies by 138,000 users. Includes tag genome data with 12 million relevance scores across 1,100 tags. Released 4/2015; updated 10/2016 to update links.csv and add tag genome data.

2022-05-31

MovieLens 25M Dataset

MovieLens 25M movie ratings. Stable benchmark dataset. 25 million ratings and one million tag applications applied to 62,000 movies by 162,000 users. Includes tag genome data with 15 million relevance scores across 1,129 tags. Released 12/2019

2022-05-17

tensorflow 1.14 Mac 系统本地跑需要的dylib

tensorflow 1.14 Mac 系统本地跑需要的dylib

2022-04-20

criteo dataset(CTR数据集)part3

Display Advertising Challenge Predict click-through rates on display ads

2022-03-27

criteo dataset(CTR数据集)part2

Display Advertising Challenge Predict click-through rates on display ads

2022-03-27

criteo dataset(CTR数据集)part1

Display Advertising Challenge Predict click-through rates on display ads

2022-03-27

avazu dataset(CTR数据集)

Predict whether a mobile ad will be clicked

2022-03-27

英文BERT论文预训练数据part2

英文BERT论文原汁预训练数据之一

2021-03-29

英文BERT论文预训练数据part1

英文BERT论文原汁预训练数据之一

2021-03-29

学数学 最好的方法是 做数学

Introduction.pdf

2021-03-16

onnxruntime-1.5.2.zip

https://github.com/microsoft/onnxruntime/releases 方便下载

2020-12-04

onnxruntime-1.5.3.zip

https://github.com/microsoft/onnxruntime/releases 方便下载

2020-12-04

自动驾驶,如何得到方向盘转动的ground truth?

2024-03-18

AlphaGo能超越人类,因为训练时 对于模型的每个输入,都有一个100%正确的答案?

2024-01-16

其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远?

2024-01-16

技术上,ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力?

2024-01-11

数学 是且仅是 一种语言和一种工具,不是科学的全部?

2023-12-14

哪些时候用CUDA编程更好?

2023-12-14

MetaLearning是LearnToLearn,那如何解决LearnToLearnToLearn?

2022-05-24

BERT/GPT是 精确存储了所有每句话的“语义” 还是得出每句话的少数服从多数的统计“语义”?

2022-05-09

用RL做NLP,和 根据那条数据的reward重新标注那条数据 有什么区别?

2022-05-07

没有物理机器人载体,如何在模拟环境里的进行学习和研究机器人?

2022-04-28

2022年了,USB式GPU有哪些进展?

2022-04-28

2022年了,有哪些稳压deepfm的CTR模型?

2022-04-01

CTR模型,如果上线了没效果,这时可以进行哪些分析工作?以及有无必要投入大量时间分析?

2022-03-24

算法工程师如何应对做算法策略的不确定性;比如没效果,这时绩效怎么保证?

2022-03-01

CTR模型必须要有一个测试数据集吗? 训练数据集和测试数据集是同一个,可以吗?

2022-02-25

有人搞过离线CTR模型么,缓存每个user对每个item的打分,没缓存的item默认处理,靠谱吗?

2022-02-18

把user买过的item的名字embedding后作为特征,以及item本身的名字embedding作为特征,这两个特征加到CTR模型,会有效果吧?

2022-02-16

为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具?

2022-02-16

因果推断技术靠谱吗,感觉里面的影响因素太多了,所以能实际解决落地问题吗?

2022-02-08

XGB/GBDT/决策树,得出特征重要性的原理是什么?

2022-02-08

强化学习是不是无人驾驶的未来?

2022-02-01

GAN生成图像,弄一个discriminator ,和无D直接生成,区别是?

2022-02-01

哪些互联网公司的管理职级和专业职级是分开的?

2022-01-22

CTR模型的AUC如果比较高,是否其实只是 因为复购行为带来的AUC虚高?

2022-01-17

CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配?

2022-01-08

人工智能的因果学习(Causal Learning)到底想解决什么问题?

2021-12-17

BYOL里stop-gradient的作用是什么?

2021-12-01

马上2022年了,强化学习+NLP 有了哪些突破?

2021-11-26

马上2022年了,pointer-network现在看来的作用是什么?

2021-11-26

总被主管说文档写的不好怎么办?

2021-11-18

NER任务只有一个类的情况下,BME或者Yes-No的数据预处理方式对结果有影响吗?

2021-11-08

为什么机器翻译文本生成,至今仍然在用transformer-auto-regressive的别扭架构?

2021-11-08

Float特征直接输入deepCTR模型和分桶转成int再embedding输入的区别是?

2021-11-08

学好数学对于编程的真实增益的性价比到底如何?

2021-11-03

学好数学对于编程的真实增益到底是多少?

2021-11-03

如果说每一个数学公式都在描述一件事情,那么数学公式的推导,是在做什么?

2021-10-26

研究出 通用人工智能/曲率引擎/黎曼猜想/可控核聚变/零事故飞行汽车/量子计算机/治愈癌症 的难度排名?

2021-10-20

每个物理公式是否都是在【描述】一个事情?

2021-10-12

求通俗讲讲数学或理论物理进行研究的细节,复杂公式是不是也都是由基础公式而来?

2021-09-14

基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度?

2021-08-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除