![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
技术摘抄
文章平均质量分 96
技术摘抄
木亦汐丫
这个作者很懒,什么都没留下…
展开
-
【LLM】大语言模型的前世今生
从历史上来看,自然语言处理的研究范式变化是从规则到统计,从统计机器学习到基于神经网络的深度学习,这同时也是语言模型发展的历史。要了解语言模型的发展历史,首先我们需要认识什么是语言模型。原创 2024-08-05 10:48:51 · 611 阅读 · 0 评论 -
【搜索核心技术】经典搜索核心算法:BM25及其变种
上篇介绍了TF-IDF算法和它的四个变种,相对于TF-IDF而言,在信息检索和文本挖掘领域,BM25算法则更具理论基础,而且是工程实践中当仁不让的重要基线(Baseline)算法。BM25在20世纪70年代到80年代被提出,到目前为止已经过去二三十年了,但是这个算法依然在很多信息检索的任务中表现优异,是很多工程师首选的算法之一。本篇将谈谈BM25算法的历史、算法本身的核心概念以及BM25的一些重要变种,快速掌握这个信息检索和文本挖掘的利器。原创 2024-08-01 15:45:15 · 1163 阅读 · 0 评论 -
【搜索核心技术】经典搜索核心算法:TF-IDF及其变种
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)。原创 2024-07-30 18:04:32 · 658 阅读 · 0 评论