自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 词向量的介绍

这是我在B站看"攻城狮之家"视频所记下的笔记,感觉自己按照思路写一遍比看一遍心里踏实的多。在介绍这个概念之前,我们先提出一个思考问题,如何判断以下三个词的相似度?“我们、爬山、运动,昨天”使用One-hot表示法表示每个词,如下:我们={0,1,0,0,0,0}爬山={0,0,1,0,0,0}运动={1,0,0,0,0,0}昨天={0,0,0,0,0,1}如果使用欧...

2019-10-28 15:29:46 418

原创 TF-IDF算法介绍

首先,先解释一下tf-idf存在的意义是啥。在上篇分享的“文本的相似度 Sentence Similarity”内容的最后有提到统计每个特征词在文档中出现的次数,把次数作为特征词的权重,是不够准确的。例如:S1 = “上海 营业部 地址 在 哪里” = (1,0,1,1,1,1)S2 = “北京 营业部 地址 在 哪里” = (0,1,1,1,1,1)利用余弦相似度(计数特征)计算...

2019-10-23 13:10:03 932

原创 文本的相似度 Sentence Similarity

以下内容是通过学习b站“攻城狮之家”,写下的笔记。视频的老师讲的逻辑清晰容易理解,推荐给大家!本文介绍两种计算文本相似的方法,一是计算距离(欧式距离),二是余弦相似度。一、计算距离(欧式距离)公式d = |s1-s2| = √(x1-x2) ²+(y1-y2) ² 2.举例说明S1 = “我们 今天 去 爬山”S2 = “你们 昨天 跑步”S3 = “你们 又...

2019-10-22 23:06:36 829

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除