Word Hashing

最新推荐文章于 2022-06-06 15:06:39 发布

瑾明达2号

最新推荐文章于 2022-06-06 15:06:39 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：深度学习

原文链接：https://blog.csdn.net/qq_42363032/article/details/115937275?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

英文的输入层通过Word Hashing方式处理，该方法基于字母的n-gram，主要作用是减少输入向量的维度。举例说明，假如现在有个词boy，开始和结束字符分别用#表示，那么输入就是(#boy#)。将词转化为字母n-gram的形式，如果设置n为3，那么就能得到(#bo,boy,oy#)三组数据，将这三组数据用n-gram的向量来表示。

使用Word Hashing方法存在的问题是可能造成冲突。因为两个不同的词可能有相同的n-gram向量表示。下图是在不同的英语词典中分别使用2-gram和3-gram进行Word Hashing时的向量空间以及词语碰撞统计：

在这里插入图片描述

可以看出在50W词的词典中如果使用2-gram，也就是两个字母的粒度来切分词，向量空间压缩到1600维，产生冲突的词有1192个(这里的冲突是指两个词的向量表示完全相同，因为单词储量实在有限，本来想找几个例子说明下，结果没找到)。如果使用3-gram向量空间压缩到3W维，产生冲突的词只有22个。综合下来论文中使用3-gram切分词。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Word Hashing

英文的输入层通过Word Hashing方式处理，该方法基于字母的n-gram，主要作用是减少输入向量的维度。举例说明，假如现在有个词boy，开始和结束字符分别用#表示，那么输入就是(#boy#)。将词转化为字母n-gram的形式，如果设置n为3，那么就能得到(#bo,boy,oy#)三组数据，将这三组数据用n-gram的向量来表示。使用Word Hashing方法存在的问题是可能造成冲突。因为两个不同的词可能有相同的n-gram向量表示。下图是在不同的英语词典中分别使用2-gram和3-gram进行W
复制链接

扫一扫

专栏目录

瑾明达2号 CSDN认证博客专家 CSDN认证企业博客

码龄6年

112: 原创

8万+: 周排名

68万+: 总排名

11万+: 访问

: 等级

1529: 积分

20: 粉丝

39: 获赞

24: 评论

184: 收藏

私信

关注

热门文章

分类专栏

机器学习 15篇
scala 2篇
tensorflow1 9篇
leetcode 8篇
pyhon 16篇
算法题 8篇
shell 2篇
spark 9篇
Linux操作系统 13篇
del 1篇
home 1篇
end 1篇
hadoop 1篇
obs 1篇
百面机器学习 12篇
Unix操作系统 5篇
Leetcode数组 14篇
go 1篇
beego 8篇
软件工具 3篇
软件安装教程 5篇

最新评论

推荐系统常用名词
CSDN-Ada助手: 非常感谢CSDN博主分享的《推荐系统常用名词》这篇博客，我觉得对于想了解推荐系统的读者来说非常有用。如果下一篇博客可以继续深入探讨推荐算法的实现原理，比如基于协同过滤的推荐算法，或者基于深度学习的推荐算法，相信会受到更多读者的欢迎和关注。期待你的下一篇精彩分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
《统计学习方法》C++实现kd tree
juebai123: 你写的非常好，可惜查找是错误的，看下面：找点 -108,0,8.44013 的邻居最近的邻居是: -34,-41,9 --------------验证------------------- -26,-41,9, d:91.680496 -34,-41,9, d:84.600906 -33,-41,9, d:85.476974 -31,-41,9, d:87.237114 -37,-40,9, d:81.494255 -36,-40,9, d:82.366943 -35,-40,9, d:83.242500 -30,-41,9, d:88.121017 -28,-41,9, d:89.896126 -27,-41,9, d:90.787186 60,-41,9, d:172.931519 61,-41,9, d:173.903168 64,-41,9, d:176.820007 -26,-40,9, d:91.237679 -25,-40,9, d:92.137474 59,-40,9, d:171.724518 -24,-40,9, d:93.039314 65,-41,9, d:177.792892 66,-41,9, d:178.766083 mind:81.494255 是:{-37.00,-40.00,9.00}
CPU / GPU串行/并行翻转图片（一）
凶萌的小老虎: 这篇博客的意义何在？要理论没理论，要程序没程序
HDFS查看文件的前几行-后几行-行数
克念: 这里有个问题，就是对于大文件性能会很差。因为其实每个命令都是遍历了整个文件的，并没有根据文件的指针只读取固定的行。
Linux下进程间通信方式——pipe（管道）
LL20160016: 编译不能通过头文件有错误 c程序就不要用cpp的头文件而且const参数不能传非const值

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。