机学走起-8-总结

最新推荐文章于 2024-10-02 22:45:05 发布

厉力文武

最新推荐文章于 2024-10-02 22:45:05 发布

阅读量333

点赞数 7

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40154354/article/details/135739634

版权

词向量本质是基于概率统计预测模型，对一个词在上下文中分布情况的计算，它的出现在多大程度上会伴随其他词的结伴出现，它们的前后关系和从属关系是怎样的，用于识别近义词、关联词和联想词准确度还是不错的。

IDF逆向频率与TF-IDF值用于获取文章关键词，通俗的讲一个词在当前文章中出现的次数越多，同时在其他文章中出现的次数越少，则这个词是文章关键词的可能性就越大，原理简单实现简单，但语料库要够大够全，分词器要足够准确，效果好不好考验的全是内功。

余弦相似度用于计算两个向量集在二维或多维坐标系中的相似性，检验它们是否具备在同一象限内向相同方向延展的趋势，重合度越高认为相似性约大。

局部哈希在处理文本相似性方面极具优势，与传统哈希没有考虑数据特征的做法相比，局部哈希最大程度保留了数据的核心要素，将多维坐标系的象限属性保留进哈希值中，而且文本越大准确率越高，再经过抽取文章关键词排序处理后，对文章有序性的要求大大降低，改几个词调换下前后顺序删除几个修饰语就像蒙混过关，没门。

LDA主题模型属于无监督的机器学习，是一个三层贝叶斯概率模型，由词、题、档三层结构组成，如果只关心海量文档聚类，而不关注具体的分类类型的话，LDA完全胜任而且效果基本不会令人失望。

与无监督机器学习相对应的是有监督的机器学习，去年脸书开源了一款“快文”，涵盖了词向量和内容分类，速度快效果好那是相当的好用，github上有c++、Python和java三个版本的，c++是脸书原作，java又分java语言实现和jni调用两种方式，由于java是根据c++改写的，版本维护跟不上，所以训练的结果模型不能跨版本使用，但对于一般企业级应用足够了。

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

厉力文武 CSDN认证博客专家 CSDN认证企业博客

码龄7年

93: 原创

38万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1703: 积分

642: 粉丝

804: 获赞

5: 评论

767: 收藏

私信

关注

热门文章

最新评论

AI 知识库
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Text-To-Speech (TTS) 模型应用
厉力文武: 谢谢
Text-To-Speech (TTS) 模型应用
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
基于 RPC 微服务的 token 管理系统
厉力文武: 兄弟加油
Azure OpenAI 对接
厉力文武: 在官网注册账号的时候会显示各项接入信息哈

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

厉力文武 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。