自然语言处理
文章平均质量分 78
liveshow021_jxb
jinxibo@gmail.com
展开
-
一文懂KL散度KL Divergence
KL散度中的KL全称是Kullback-Leibler,分别表示Solomon Kullback和Richard A.Leibler这两个人。表明概率分布Q和概率分布P之间的相似性,由交叉熵减去熵得到。原创 2023-04-08 17:39:08 · 614 阅读 · 0 评论 -
一文懂交叉熵Cross-Entropy
交叉熵由交叉(Cross)和熵(Entropy)两部分组成,在机器学习中常常被定义为损失函数的目标。在二分类任务中,更有二分类交叉熵作为训练目标函数。原创 2023-04-06 20:04:15 · 561 阅读 · 0 评论 -
一文懂熵Entropy
我们常常听到【熵增】,【熵减】等概念。那么熵是什么?熵这个概念,最初有很多词描述它,如无序、不确定性、意外程度、不可预测、信息量等等,让很多人感到困惑。如果你对熵这个词也感到困惑,那么请继续读下去,本文将为你揭开熵的神秘面纱。原创 2023-03-30 18:03:28 · 315 阅读 · 0 评论 -
搜索中归一化含义
搜索是用户查找信息的有力武器,能快速帮用户找到需要的内容。对于用户输入查询词时,有“归一化”这一步骤,有时也叫标准化。原创 2023-03-09 17:53:58 · 276 阅读 · 0 评论 -
如何做SEO推广
SEO是SearchEngineOptimization的缩写,表示“搜索引擎优化”,指透过了解搜索引擎的运作规则来调整网站,提高目标网站在有关搜索引擎内的排名(wikipedia定义)。SEO推广是基于搜索引擎优化的一种网络推广方式,也被称为免费的自然搜索排名优化,是相对于买广告推广的。它可以帮助主体更好地向用户展示其网站,让更多的人找到主体的网站,访问主体网站上的内容。原创 2023-03-01 16:51:47 · 2133 阅读 · 0 评论 -
机器学习中准确率、精确率、召回率、误报率、漏报率、F1-Score、AP&mAP、AUC、MAE、MAPE、MSE、RMSE、R-Squared等指标的定义和说明
在机器学习和深度学习用于异常检测(Anomaly detection)、电子商务(E-commerce)、信息检索(Information retrieval, IR)等领域任务(Task)中,有很多的指标来判断机器学习和深度学习效果的好坏。这些指标有相互权衡的,有相互背向的,所以往往需要根据实际的任务和场景来选择衡量指标。本篇博文对这些指标进行一个梳理。原创 2020-12-26 12:06:00 · 27686 阅读 · 0 评论 -
内容算法解读:提高内容摘要与原文的一致性(Faithfulness)
受益于预训练语言模型的发展,应用神经网络模型提取内容摘要的技术也获得了长足进步。但目前还存在一个未被很好解决的问题:神经网络模型提取的摘要不能如实反映原文档的中心思想,没有做到忠实(notfaithful)。可能的原因有两个,1)摘要模型未能理解或者抓取输入文档内容的要点;2)摘要模型过度依赖语言模型,产生了流畅但不达意的词语。本文提出了一个忠实度增强摘要模型,克服上述两个问题,并尽可能贴切地表达出原文的中心思想。原创 2023-03-04 20:35:47 · 1095 阅读 · 0 评论