自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Talk Is Cheap

If You Get Tired, Learn To Rest, Not To Quit

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark 文本按jaccard或编辑距离join的速度进一步优化

如果两个string column做笛卡尔积的jaccard距离计算，即使按 https://blog.csdn.net/guotong1988/article/details/111594617计算，速度也是很慢，所以要先做一步粗召回，用string column1的前几个字（或者ngram）作为key1，用string column2的前几个字（或者ngram）作为key2，然后key1 join key2，即得到粗召回的结果，再每行计算jaccard距离...

2020-12-31 16:02:01 355

原创 Spark 文本按jaccard或编辑距离join的速度优化，join时match右边一个就break

只能先collect小表数据再broadcast，然后再每个map里match之后break

2020-12-23 17:18:41 292

原创 Spark 取每个groupby的TopN条数据

import org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions.{rand, row_number}val windowFun = Window.partitionBy("groupby_column").orderBy(col("score").desc)val resultDF = dataDF.withColumn("rank", row_number.over(windowFun))

2020-12-22 17:20:08 506

原创 spark join 速度优化

https://stackoverflow.com/questions/32435263/dataframe-join-optimization-broadcast-hash-joinimport org.apache.spark.sql.functions.broadcastlargeDataframe.join(broadcast(smallDataframe), ...)

2020-12-14 10:04:48 614 1

原创 Spark 集成 Lucene

研究 https://github.com/agile-lab-dev/sparksearchengine 发现，似乎在每个worker节点进行全局的search似乎是不可能的，只能建立全局index后在driver进行search。

2020-12-07 17:14:30 426

huggingface.co/Salesforce/blip-image-captioning-base

clone from https://huggingface.co/Salesforce/blip-image-captioning-base

2024-08-22

huggingface的bert-base-uncased.zip的split的2/2

huggingface的bert-base-uncased.zip的split的2/2

2024-08-21

huggingface的bert-base-uncased.zip的split的1/2

huggingface的bert-base-uncased.zip的split的1/2

2024-08-21

Qwen2-7B 的 model-00004-of-00004.safetensors 的2/2

Qwen2-7B 的 model-00004-of-00004.safetensors 的2/2

2024-07-29

Qwen2-7B 的 model-00004-of-00004.safetensors 的1/2

Qwen2-7B 的 model-00004-of-00004.safetensors 的1/2

2024-07-29

Qwen2-7B 的 model-00003-of-00004.safetensors 的2/2

Qwen2-7B 的 model-00003-of-00004.safetensors 的2/2

2024-07-29

Qwen2-7B 的 model-00003-of-00004.safetensors 的1/2

Qwen2-7B Base 的 model-00003-of-00004.safetensors 的1/2

2024-07-29

Qwen2-7B 的 model-00002-of-00004.safetensors 的2/2

Qwen2-7B 的 model-00002-of-00004.safetensors 的2/2

2024-07-28

Qwen2-7B 的 model-00002-of-00004.safetensors 的1/2

Qwen2-7B 的 model-00002-of-00004.safetensors 的1/2

2024-07-28

Qwen2-7B 的 model-00001-of-00004.safetensors 的2/2

Qwen2-7B 的 model-00001-of-00004.safetensors 的2/2

2024-07-28

Qwen2-7B 的 model-00001-of-00004.safetensors 的1/2

Qwen2-7B 的 model-00001-of-00004.safetensors 的1/2

2024-07-28

Qwen2-7B-Instruct 的 model-00004-of-00004.safetensors 的2/2

Qwen2-7B-Instruct 的 model-00004-of-00004.safetensors 的2/2

2024-07-26

Qwen2-7B-Instruct 的 model-00004-of-00004.safetensors 的1/2

Qwen2-7B-Instruct 的 model-00004-of-00004.safetensors 的1/2

2024-07-26

Qwen2-7B-Instruct 的 model-00003-of-00004.safetensors 的2/2

Qwen2-7B-Instruct 的 model-00003-of-00004.safetensors 的2/2

2024-07-26

Qwen2-7B-Instruct 的 model-00003-of-00004.safetensors 的1/2

Qwen2-7B-Instruct 的 model-00003-of-00004.safetensors 的1/2

2024-07-26

Qwen2-7B-Instruct 的 model-00002-of-00004.safetensors 的2/2

Qwen2-7B-Instruct 的 model-00002-of-00004.safetensors 的2/2

2024-07-26

Qwen2-7B-Instruct 的 model-00002-of-00004.safetensors 的1/2

Qwen2-7B-Instruct 的 model-00002-of-00004.safetensors 的1/2

2024-07-26

Qwen2-7B-Instruct 的 model-00001-of-00004.safetensors 的2/2

Qwen2-7B-Instruct 的 model-00001-of-00004.safetensors 的2/2

2024-07-25

Qwen2-7B-Instruct 的 model-00001-of-00004.safetensors 的1/2

Qwen2-7B-Instruct 的 model-00001-of-00004.safetensors 的1/2

2024-07-25

libstemmer-java-2.2.0.tar.gz

多国语言的词根提取

2024-07-24

torch-2.3.0+cu118-cp38-cp38-linux-x86-64.whl

pip3 install torch-2.3.0+cu118-cp38-cp38-linux_x86_64.whl

2024-06-24

meta-llama-3-8b-instruct 的 model-00004-of-00004.safetensors

meta-llama-3-8b-instruct 的 model-00004-of-00004.safetensors

2024-05-29

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的3/3

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的3/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的1/3

meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的1/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的3/3

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的3/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的2/3

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的2/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的1/3

meta-llama-3-8b-instruct 的 model-00002-of-00004.safetensors 的1/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的3/3

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的3/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3

2024-05-29

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的1/3

meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的1/3

2024-05-29

stanford-corenlp-4.5.6.zip

https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip

2024-03-12

huggingface的bert-base-chinese

https://huggingface.co/google-bert/bert-base-chinese pytorch和tensorflow都有

2024-03-05

huggingface的bert-base-uncased

https://huggingface.co/google-bert/bert-base-uncased pytorch和tensorflow都有

2024-03-03

TREC-6 文本分类数据集

https://www.tensorflow.org/datasets/catalog/trec

2024-02-22

chatglm3-6b的模型参数文件0/7

这个是除了7个大文件之外的所有小文件

2023-11-30

chatglm3-6b的模型参数文件6/7

chatglm3-6b的模型参数文件6/7

2023-11-29

chatglm3-6b的模型参数文件5/7

chatglm3-6b的模型参数文件5/7

2023-11-29

chatglm3-6b的模型参数文件4/7

chatglm3-6b的模型参数文件4/7

2023-11-29

chatglm3-6b的模型参数文件7/7

chatglm3-6b的模型参数文件7/7

2023-11-28

自动驾驶，如何得到方向盘转动的ground truth？

2024-03-18

AlphaGo能超越人类，因为训练时对于模型的每个输入，都有一个100%正确的答案?

2024-01-16

其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远？

2024-01-16

技术上，ChatGPT要成为 AI医生/AI律师/AI教师还欠缺哪些能力？

2024-01-11

数学是且仅是一种语言和一种工具，不是科学的全部？

2023-12-14

哪些时候用CUDA编程更好？

2023-12-14

MetaLearning是LearnToLearn，那如何解决LearnToLearnToLearn？

2022-05-24

BERT/GPT是精确存储了所有每句话的“语义” 还是得出每句话的少数服从多数的统计“语义”？

2022-05-09

用RL做NLP，和根据那条数据的reward重新标注那条数据有什么区别？

2022-05-07

没有物理机器人载体，如何在模拟环境里的进行学习和研究机器人？

2022-04-28

2022年了，USB式GPU有哪些进展？

2022-04-28

2022年了，有哪些稳压deepfm的CTR模型？

2022-04-01

CTR模型，如果上线了没效果，这时可以进行哪些分析工作？以及有无必要投入大量时间分析？

2022-03-24

算法工程师如何应对做算法策略的不确定性；比如没效果，这时绩效怎么保证？

2022-03-01

CTR模型必须要有一个测试数据集吗？训练数据集和测试数据集是同一个，可以吗？

2022-02-25

有人搞过离线CTR模型么，缓存每个user对每个item的打分，没缓存的item默认处理，靠谱吗？

2022-02-18

把user买过的item的名字embedding后作为特征，以及item本身的名字embedding作为特征，这两个特征加到CTR模型，会有效果吧？

2022-02-16

为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具？

2022-02-16

因果推断技术靠谱吗，感觉里面的影响因素太多了，所以能实际解决落地问题吗？

2022-02-08

XGB/GBDT/决策树，得出特征重要性的原理是什么？

2022-02-08

强化学习是不是无人驾驶的未来？

2022-02-01

GAN生成图像，弄一个discriminator ，和无D直接生成，区别是？

2022-02-01

哪些互联网公司的管理职级和专业职级是分开的？

2022-01-22

CTR模型的AUC如果比较高，是否其实只是因为复购行为带来的AUC虚高？

2022-01-17

CTR模型的本质是不是算出 user的哪些特征和item的哪些特征最匹配？

2022-01-08

人工智能的因果学习（Causal Learning）到底想解决什么问题？

2021-12-17

BYOL里stop-gradient的作用是什么？

2021-12-01

马上2022年了，强化学习+NLP 有了哪些突破？

2021-11-26

马上2022年了，pointer-network现在看来的作用是什么？

2021-11-26

总被主管说文档写的不好怎么办？

2021-11-18

NER任务只有一个类的情况下，BME或者Yes-No的数据预处理方式对结果有影响吗？

2021-11-08

为什么机器翻译文本生成，至今仍然在用transformer-auto-regressive的别扭架构？

2021-11-08

Float特征直接输入deepCTR模型和分桶转成int再embedding输入的区别是？

2021-11-08

学好数学对于编程的真实增益的性价比到底如何？

2021-11-03

学好数学对于编程的真实增益到底是多少？

2021-11-03

如果说每一个数学公式都在描述一件事情，那么数学公式的推导，是在做什么？

2021-10-26

研究出通用人工智能/曲率引擎/黎曼猜想/可控核聚变/零事故飞行汽车/量子计算机/治愈癌症的难度排名?

2021-10-20

每个物理公式是否都是在【描述】一个事情？

2021-10-12

求通俗讲讲数学或理论物理进行研究的细节，复杂公式是不是也都是由基础公式而来？

2021-09-14

基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？

2021-08-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

FocusOneThread CSDN认证博客专家 CSDN认证企业博客

码龄14年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

1671: 原创

7419: 周排名

218: 总排名

454万+: 访问

: 等级

5万+: 积分

1098: 粉丝

1018: 获赞

951: 评论

1875: 收藏

私信

关注

热门文章

分类专栏

最新评论

hive sql, stringColumn1 contains stringColumn2
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
ElasticSearch索引和搜索词匹配的一些细节
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
职场三句话
FocusOneThread: 本着就事论事的出发点，回应和领导讨论时的质疑，非常重要，效果也不错，自己本身办事能力到位了，领导质疑时，亮出这事总结的方案以凸现自信。
spark 报错 No Encoder found for Iterable
CSDN-Ada助手: Spark 中的 GraphX 与 Neo4j 的比较，分别适用于哪些应用场景？
【推荐系统】CTR模型加了特征，用少量数据训test-AUC涨了，用大量数据训test-AUC跌了很多
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

2024

提示

确定要删除当前文章？

取消删除