自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Talk Is Cheap

If You Get Tired, Learn To Rest, Not To Quit.

  • 博客(1828)
  • 资源 (385)
  • 问答 (103)
  • 收藏
  • 关注

原创 query作为tag打在item上,理论上能解决所有搜索的召回问题

比如搜 奶茶 在 呷哺 下单,(呷哺也在卖奶茶),有上万个 奶茶query 都在 呷哺item 下单,那么给 呷哺item 打上 奶茶tag 肯定是OK的一条数据,通过 高频query的订单 找到的query-item的绑定关系,作为训练数据,有了模型后,然后对 比如 item呷哺呷哺 进行预测出 奶茶tag。在订单越大的时候,数据是越置信的,

2024-02-29 19:26:18 318

原创 Spark, import java in scala, 报错 NoClassDefFoundError: Could not initialize class

在scala文件里import一个java文件,报错。很可能是import的这个java文件里的。里的代码的初始化问题。

2024-02-28 14:03:48 10

原创 报错 lambda expressions are not supported in -source (use -source to enable lambda expressions)

【代码】lambda expressions are not supported in -source 1.5 (use -source 8 to enable lambda expressions)

2024-02-28 11:19:59 10

原创 SQL column1 contains another column2

【代码】SQL column1 contains another column2。

2024-02-28 10:23:00 345

原创 无人工标注 实现搜索 分词/标签召回/query改写/query-item相关性

高频/低频 用户行为(浏览/点击/下单)是相当于 已经去掉噪声 的数据,数据质量是可以的,可以一起用 比如 高频1gram+高频2gram+高频3gram+高频4gram。以 同一query 的 高频订单/低频订单,作为正负样本,训练二分类模型。这里 面馆A,面馆B 的标签 必须是已有的,都是 面类饭店,那么可以认为 牛肉面 和 牛肉拉面 是很相似的词了。然后认为 牛肉面 和 牛肉拉面 互为相似词,如果没有好的分词工具的话,训练一个文本生成模型,训练一个文本生成模型,训练一个文本生成模型。

2024-02-20 15:04:19 375

原创 【搜索算法】分词模型的冷启动替换

可以一起用 比如 高频1gram+高频2gram+高频3gram+高频4gram。如果没有好的分词工具的话,

2024-02-20 14:17:21 312

原创 基于用户搜索行为,训练query-item相关性模型

高频用户行为(点击/下单)是相当于 已经去掉噪声 的数据,数据质量是可以的,以 同一query 的 高频订单/低频订单,作为正负样本,训练二分类模型。

2024-02-20 11:43:36 305

原创 基于用户搜索行为,给query打上item的标签

用户高频搜 牛肉拉面 — 高频下单 面馆A 面馆B。用户高频搜 牛肉面 — 高频下单 面馆A 面馆B。面馆A,面馆B 的标签都是 面类饭店。然后对 所有饭店 进行预测。训练一个文本生成模型,

2024-02-07 21:44:29 317

原创 基于用户搜索行为,给item打上query标签 / 把query看成标签打在item上

用户搜 牛肉拉面 — 高频下单 面馆A 面馆B。用户搜 牛肉面 — 高频下单 面馆A 面馆B。然后对 面馆C 进行预测。训练一个文本生成模型,

2024-02-04 18:00:47 349

原创 基于用户搜索行为,寻找query的相似词/同义词/扩展词/改写词

用户搜 牛肉拉面 — 高频下单 面馆A 面馆B 面馆D。用户搜 牛肉面 — 高频下单 面馆A 面馆B 面馆C。那么可以认为 牛肉面 和 牛肉拉面 是很相似的词了。

2024-02-04 17:56:39 402

原创 模拟请求ElasticSearch

在这个searchBuilder变量里,对里面query变量点右侧 view按钮,在IDEA的debug模式,走到Java代码的searchBuilder,IDEA里会显示出一个json,把这个json填到。打开插件,GET的json填什么。安装chrome的这个插件。

2024-02-02 15:31:22 602

原创 Spark,Scala,collect成一个string

【代码】Spark,Scala,collect成一个string。

2024-02-02 10:49:38 23

原创 Latex,在table的cell里换行

【代码】Latex,在table的cell里换行。

2024-01-31 16:38:41 310

原创 Latex,调整行间距

【代码】Latex,调整行间距。

2024-01-31 16:34:01 353

原创 【推荐系统】item-id 作为特征的意义

所以把item-id embedding后作为特征,就是一个让模型记住每个item信息的方式。是有一些 预测/泛化 的能力,但不影响模型在记忆的出发点,因为其实 模型本身就是 基于记忆(拟合) 的,

2024-01-19 14:54:52 376

原创 【推荐系统】端上重排的意义

如果没有这个功能的话,推荐的商品,都是针对用户过去数日的兴趣,也是很直接的idea,除了重新排序商品,也有很多其他实现方式。比如 用户点击了一个健身器材,往下翻会多出很多健身器材,而不能响应用户今天实时的兴趣。

2024-01-19 14:48:26 373

原创 职场三句话

1,Talk Is Cheap,你的见解不是那么重要。3,职场沟通,就事论事,论事只为干事。2,少管闲事,管好自己就行了。

2024-01-15 15:18:16 337

原创 Spark 读excel报错,scala.MatchError

【代码】Spark 读excel报错,scala.MatchError。

2024-01-12 08:59:39 168

原创 Spark 报错, Failed to find data source: com.crealytics.spark.excel

Spark3需引入jar包。

2024-01-11 16:20:12 103

原创 Spark orderBy OOM / 执行时间超长

排序的列里有NaN值(极大值),可能是 有除法里分母为0导致的。

2023-12-23 13:19:54 380

原创 Latex algorithm前后有太多空白

的行数,或者调整其他图的大小/行数,或者给。其实Latex已经帮着让空白尽量少了,还不如碰碰调整 整个。

2023-12-21 17:17:26 539

原创 Latex 改变字体颜色

【代码】Latex 改变字体颜色。

2023-12-21 17:00:53 366

原创 Spark count() OOM

【代码】Spark Count() OOM。

2023-12-21 14:31:47 348

原创 Latex table/表格 自动换行

【代码】Latex table/表格 自动换行。

2023-12-19 10:12:05 456

原创 CTR模型,聚类型特征的生产原则

因为,给用户推荐的本质就是推荐 相似的item。2,聚类体系的定义合理度;1,是聚类的准确度;

2023-12-13 15:04:40 45

原创 python 实现一个交互式终端

【代码】python 实现一个交互式终端。

2023-11-30 15:04:28 102

原创 pytorch 检查GPU可用

【代码】pytorch 检查GPU可用。

2023-11-28 11:07:43 77

原创 线上AB实验的日志分析

分析出了 受影响这部分商家/商品的正向或负向,很重要,可以决定在大盘指标不显著时,是否延长观察时间,如果受策略影响这部分是正向的,且影响面不小,那么大盘大概率只是暂时不正向的。商家/商品,可统计分析出哪些(类别的)商家/商品受策略影响之后 正向最大 或 负向最大,可以关闭负向部分的商家/商品的策略。具体操作:在实验组圈选出 受策略影响的商家/商品,对这部分商家/商品,统计实验组VS对照组的效果指标。商家/商品,则统计分析出受影响这部分的效果指标。

2023-11-20 22:20:13 144

原创 Latex,带行号的algorithm

摘自https://arxiv.org/abs/2105.10446。

2023-11-14 11:46:10 250

原创 spark报错,Could not execute broadcast in 7200 secs

【代码】spark报错,Could not execute broadcast in 7200 secs。

2023-11-01 11:42:29 95

原创 AB实验 置信度检验 / T检验,采样vs不采样

所以用每天的RPM绝对值不行,必须采样到每个用户的RPM。实验组的涨幅 被 天和天之间 的波动幅度盖过。可以直接传入T检验的接口计算。T检验是算两个分布的差异。

2023-10-24 11:12:43 75

原创 pyspark报错,gzip: stdin: unexpected end of file

要打的jar包太大了,打包失败了。

2023-10-23 15:37:05 68

原创 huggingface/transformers 用Trainer 和 不用Trainer

【代码】huggingface/transformers 用Trainer 和 不用Trainer。

2023-10-19 15:53:07 92

原创 latex,横线除号

【代码】latex 横线除号。

2023-10-18 17:13:01 258

原创 latex,约等于 小于等于 大于等于

约等于 \approx小于等于 \leq大于等于 \geq。

2023-10-18 16:22:50 117

原创 latex,没有边框的表格

【代码】latex,没有边框的表格。

2023-10-17 10:10:39 398

原创 latex,不带行号的algorithm

【代码】latex,不带行号的algorithm。

2023-10-17 10:07:16 352

原创 latex,缩小到右下角

【代码】latex 缩小到右下角。

2023-10-16 11:56:41 105

原创 Neural Insights for Digital Marketing Content Design 阅读笔记

电商里,营销内容的实验,很重要。然而,创作营销内容是一个手动和耗时的过程,缺乏明确的指导原则。本文通过 基于历史数据的AI驱动的可行性洞察,来弥补 营销内容创作 和 在线实验 之间的差距,以改善营销内容的创作过程。本文提出了一个基于神经网络的系统,该系统对营销内容设计进行评分 并提取洞察。具体来说,是一个多模态神经网络 预测营销内容的吸引力。不仅指出了当前营销内容的优点和缺点,还根据历史数据提供了设计建议。本文的评分模型和洞察 在定量和定性上都工作得很好。

2023-09-27 10:24:30 103

原创 spark scala 训练 LogisticRegression

【代码】spark scala 训练 LogisticRegression。

2023-09-26 15:02:59 61

TREC-6 文本分类数据集

https://www.tensorflow.org/datasets/catalog/trec

2024-02-22

Mac M3 上开箱即用的python3.8

解决了openssl问题

2024-02-22

chatglm3-6b的模型参数文件0/7

这个是除了7个大文件之外的所有小文件

2023-11-30

chatglm3-6b的模型参数文件6/7

chatglm3-6b的模型参数文件6/7

2023-11-29

chatglm3-6b的模型参数文件5/7

chatglm3-6b的模型参数文件5/7

2023-11-29

chatglm3-6b的模型参数文件4/7

chatglm3-6b的模型参数文件4/7

2023-11-29

chatglm3-6b的模型参数文件7/7

chatglm3-6b的模型参数文件7/7

2023-11-28

chatglm3-6b的模型参数文件3/7

chatglm3-6b的模型参数文件3/7

2023-11-28

chatglm3-6b的模型参数文件2/7

chatglm3-6b的模型参数文件2/7

2023-11-28

chatglm3-6b的模型参数文件1/7

chatglm3-6b的模型参数文件1/7

2023-11-28

Deep (Convolution) Networks from First Principles by马毅老师

Deep (Convolution) Networks from First Principles by马毅老师

2023-09-26

NLPIR新闻语料库(2400万字)

1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。

2023-08-30

CLUE AFQMC 语义相似度 数据集

蚂蚁金融语义相似度 Ant Financial Question Matching Corpus 数据量:训练集(34334)验证集(4316)测试集(3861)

2023-07-24

CLUE TNEWS 文本分类数据集

今日头条中文新闻(短文本)分类 Short Text Classificaiton for News 数据量:训练集(53,360),验证集(10,000),测试集(10,000)

2023-07-24

Linux-CentOS编译好的python3.8,解决了ssl相关问题

Linux-CentOS编译好的python3.8,解决了ssl相关问题

2023-02-17

MovieLens 20M Dataset

MovieLens 20M movie ratings. Stable benchmark dataset. 20 million ratings and 465,000 tag applications applied to 27,000 movies by 138,000 users. Includes tag genome data with 12 million relevance scores across 1,100 tags. Released 4/2015; updated 10/2016 to update links.csv and add tag genome data.

2022-05-31

MovieLens 25M Dataset

MovieLens 25M movie ratings. Stable benchmark dataset. 25 million ratings and one million tag applications applied to 62,000 movies by 162,000 users. Includes tag genome data with 15 million relevance scores across 1,129 tags. Released 12/2019

2022-05-17

tensorflow 1.14 Mac 系统本地跑需要的dylib

tensorflow 1.14 Mac 系统本地跑需要的dylib

2022-04-20

criteo dataset(CTR数据集)part3

Display Advertising Challenge Predict click-through rates on display ads

2022-03-27

criteo dataset(CTR数据集)part2

Display Advertising Challenge Predict click-through rates on display ads

2022-03-27

criteo dataset(CTR数据集)part1

Display Advertising Challenge Predict click-through rates on display ads

2022-03-27

avazu dataset(CTR数据集)

Predict whether a mobile ad will be clicked

2022-03-27

英文BERT论文预训练数据part2

英文BERT论文原汁预训练数据之一

2021-03-29

英文BERT论文预训练数据part1

英文BERT论文原汁预训练数据之一

2021-03-29

学数学 最好的方法是 做数学

Introduction.pdf

2021-03-16

onnxruntime-1.5.2.zip

https://github.com/microsoft/onnxruntime/releases 方便下载

2020-12-04

onnxruntime-1.5.3.zip

https://github.com/microsoft/onnxruntime/releases 方便下载

2020-12-04

onnxruntime-1.5.2.jar

onnx的java包,pom引入后可以试验java调用onnx文件进行cpu模型推理。 具体见https://github.com/microsoft/onnxruntime/blob/master/java/src/test/java/sample/ScoreMNIST.java 和 https://github.com/microsoft/onnxruntime/blob/master/docs/Java_API.md#getting-started

2020-12-03

train-images-idx3-ubyte.gz 和 train-labels-idx1-ubyte.gz

train-images-idx3-ubyte.gz train-labels-idx1-ubyte.gz t10k-images-idx3-ubyte.gz t10k-labels-idx1-ubyte.gz

2020-12-03

How to write a good CVPR submission

MIT计算机大牛Bill Freeman教授于2014年写的报告,虽然比较久远,但非常有参考意义。How to write a good CVPR submission

2020-11-27

aclImdb_v1.tar.gz

https://huggingface.co/transformers/custom_datasets.html#seq-imdb 用到的数据

2020-11-19

tensorflow_gpu-1.15.3-cp36-cp36m-manylinux2010_x86_64.whl

An Open Source Machine Learning Framework for Everyone

2020-11-06

tensorflow_gpu-1.15.2-cp36-cp36m-manylinux2010_x86_64.whl

An Open Source Machine Learning Framework for Everyone

2020-11-06

tensorflow_gpu-1.15.0-cp36-cp36m-manylinux2010_x86_64.whl

An Open Source Machine Learning Framework for Everyone

2020-11-06

tensorflow_gpu-1.15.4-cp36-cp36m-manylinux2010_x86_64.whl

An Open Source Machine Learning Framework for Everyone

2020-11-06

tensorflow-1.14.0-cp36-cp36m-macosx_10_11_x86_64.whl

tensorflow 离线安装包 An Open Source Machine Learning Framework for Everyone

2020-10-27

tensorflow-2.3.0-cp36-cp36m-macosx_10_11_x86_64.whl

tensorflow 离线安装包 An Open Source Machine Learning Framework for Everyone

2020-10-27

annotated_wikisql_and_PyTorch_bert_param.zip

自然语言转SQL的SOTA项目https://github.com/guotong1988/NL2SQL-RULE 的完整数据

2020-10-22

annotated_wikisql_and_PyTorch_bert_param.zip

自然语言转SQL任务 https://github.com/guotong1988/NL2SQL-RULE 用的数据

2020-10-19

NeurIPS上讲解XLNet的PPT

An auto-regressive model that captures bidirectional context

2020-09-29

AlphaGo能超越人类,因为训练时 对于模型的每个输入,都有一个100%正确的答案?

2024-01-16

其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远?

2024-01-16

技术上,ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力?

2024-01-11

数学 是且仅是 一种语言和一种工具,不是科学的全部?

2023-12-14

哪些时候用CUDA编程更好?

2023-12-14

MetaLearning是LearnToLearn,那如何解决LearnToLearnToLearn?

2022-05-24

BERT/GPT是 精确存储了所有每句话的“语义” 还是得出每句话的少数服从多数的统计“语义”?

2022-05-09

用RL做NLP,和 根据那条数据的reward重新标注那条数据 有什么区别?

2022-05-07

没有物理机器人载体,如何在模拟环境里的进行学习和研究机器人?

2022-04-28

2022年了,USB式GPU有哪些进展?

2022-04-28

2022年了,有哪些稳压deepfm的CTR模型?

2022-04-01

CTR模型,如果上线了没效果,这时可以进行哪些分析工作?以及有无必要投入大量时间分析?

2022-03-24

算法工程师如何应对做算法策略的不确定性;比如没效果,这时绩效怎么保证?

2022-03-01

CTR模型必须要有一个测试数据集吗? 训练数据集和测试数据集是同一个,可以吗?

2022-02-25

有人搞过离线CTR模型么,缓存每个user对每个item的打分,没缓存的item默认处理,靠谱吗?

2022-02-18

把user买过的item的名字embedding后作为特征,以及item本身的名字embedding作为特征,这两个特征加到CTR模型,会有效果吧?

2022-02-16

为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具?

2022-02-16

因果推断技术靠谱吗,感觉里面的影响因素太多了,所以能实际解决落地问题吗?

2022-02-08

XGB/GBDT/决策树,得出特征重要性的原理是什么?

2022-02-08

强化学习是不是无人驾驶的未来?

2022-02-01

GAN生成图像,弄一个discriminator ,和无D直接生成,区别是?

2022-02-01

哪些互联网公司的管理职级和专业职级是分开的?

2022-01-22

CTR模型的AUC如果比较高,是否其实只是 因为复购行为带来的AUC虚高?

2022-01-17

CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配?

2022-01-08

人工智能的因果学习(Causal Learning)到底想解决什么问题?

2021-12-17

BYOL里stop-gradient的作用是什么?

2021-12-01

马上2022年了,强化学习+NLP 有了哪些突破?

2021-11-26

马上2022年了,pointer-network现在看来的作用是什么?

2021-11-26

总被主管说文档写的不好怎么办?

2021-11-18

NER任务只有一个类的情况下,BME或者Yes-No的数据预处理方式对结果有影响吗?

2021-11-08

为什么机器翻译文本生成,至今仍然在用transformer-auto-regressive的别扭架构?

2021-11-08

Float特征直接输入deepCTR模型和分桶转成int再embedding输入的区别是?

2021-11-08

学好数学对于编程的真实增益的性价比到底如何?

2021-11-03

学好数学对于编程的真实增益到底是多少?

2021-11-03

如果说每一个数学公式都在描述一件事情,那么数学公式的推导,是在做什么?

2021-10-26

研究出 通用人工智能/曲率引擎/黎曼猜想/可控核聚变/零事故飞行汽车/量子计算机/治愈癌症 的难度排名?

2021-10-20

每个物理公式是否都是在【描述】一个事情?

2021-10-12

求通俗讲讲数学或理论物理进行研究的细节,复杂公式是不是也都是由基础公式而来?

2021-09-14

基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度?

2021-08-17

为什么CV能做到让一幅人脸图动了笑了,而NLP的text-style-transfer进展貌似一般?

2021-08-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除