![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 84
Sais_Z
这个作者很懒,什么都没留下…
展开
-
第三届阿里云智维算法大赛总结
第三届阿里云智维算法大赛总结问题描述数据简述思路一模板匹配训练数据生成输入模型GridSearchCV调参思路二biL-lstm+attention其他问题描述给定一段时间的系统日志数据,参赛者应提出自己的解决方案,以诊断服务器发生了哪种故障。具体来说,参赛者需要从组委会提供的数据中挖掘出和各类故障相关的特征,并采用合适的机器学习算法予以训练,最终得到可以区分故障类型的最优模型。数据处理方法和算法不限,但选手应该综合考虑算法的效果和复杂度,以构建相对高效的解决方案。初赛会提供训练数据集,供参赛选手训练原创 2022-04-02 22:25:49 · 1687 阅读 · 5 评论 -
Word2vec原理CBOW与Skip-Gram模型基础
Word2vecWord2vecCBOWSkip-GramWord2vec词向量最早的词向量是很冗长的,它使用是词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。这种词向量的编码方式我们一般叫做one hot representation.One hot用来表示词向量非常简单,但是却有很多问题。首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很重要的);其次,它假设词与词相互独立(在大多数情况下,词与词是相互影响的);最后,它得到的特征转载 2021-08-22 00:04:14 · 851 阅读 · 0 评论 -
文本特征提取算法-TF-IDF
TF-IDF算法原理及其使用详解TF-IDFsklearn实现TF-IDFTF-IDF(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法。用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。其中TF(Term Frequency)指的是某词在文章中出现的总次数,该指标通常会被归一化定义为原创 2021-08-21 14:04:28 · 1790 阅读 · 0 评论 -
NLP技术发展综述
NLP技术发展史2001 - Neural language models(神经语言模型)2008 - Multi-task learning(多任务学习)2013 - Word embeddings( 词嵌入)2013 - Neural networks for NLP2014 - Sequence-to-sequence models2015 - Attention2015 - Memory-based networks2018 - Pretrained language models翻译原文来自:翻译 2021-05-19 15:58:34 · 3402 阅读 · 2 评论