nlp任务记录（章一）

K1LYZ

已于 2023-08-20 23:08:11 修改

阅读量105

点赞数

文章标签：自然语言处理人工智能

于 2023-07-29 17:50:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74184968/article/details/131996359

版权

目录

一、python基础

（1）文件读取和保存

（2）处理原始文本（字符串操作和正则表达式）编辑

二、文本处理

（1）预处理流程

（2）.停用词表（下载链接）GitHub - goto456/stopwords: 中文常用停用词表（哈工大停用词表、百度停用词表等）

（3）分词软件jieba的使用

3.关键词提取

（4）gensim软件使用

1.计算词向量

2.计算词语相似度

3.（计算)TF-IDF（关键词？稀有程度？-->某词在某篇文章中的关键程度）

一、python基础

（1）文件读取和保存

（2）处理原始文本（字符串操作和正则表达式）

二、文本处理

（1）预处理流程

（2）.停用词表（下载链接）GitHub - goto456/stopwords: 中文常用停用词表（哈工大停用词表、百度停用词表等）

（3）分词软件jieba的使用

1.分词（返回list）

cut_all：ture全面、false精准

2.加词

若有特殊词汇，可以通过添加自定义词典

3.关键词提取

TF-IDF

TEXTRANK

（4）gensim软件使用

1.计算词向量

word2vec计算词向量，先把分好词的文本合在一起，然后传入word2vec中，他会计算每个词在文本空间中的向量表示，这些向量可以通过欧氏距离/余弦距离等来反映各词之间的相似性。（注意这些相似性与相关性是局部的）

上下文词长度就是窗口长度

2.计算词语相似度

3.（计算)TF-IDF（关键词？稀有程度？-->某词在某篇文章中的关键程度）

TF：a词在文章A中出现的频率

DF：a词在语料库/BCDE...文章中出现的频率

IDF：DF的倒数

TF-IDF = TF * IDF：所以若某个词在某篇文章的TF-IDF高，即该词在该篇文章中出现频率多，在语料库/其他文章中出现频率少，这个词在这篇文章里就越关键

分词后，将分词结果转换成词典和词库

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nlp任务记录（章一）

TF-IDF = TF * IDF：所以若某个词在某篇文章的TF-IDF高，即该词在该篇文章中出现频率多，在语料库/其他文章中出现频率少，这个词在这篇文章里就越关键。DF：a词在语料库/BCDE...文章中出现的频率。cut_all：ture全面、false精准。若有特殊词汇，可以通过添加自定义词典。分词后，将分词结果转换成词典和词库。TF：a词在文章A中出现的频率。
复制链接

扫一扫

K1LYZ CSDN认证博客专家 CSDN认证企业博客

码龄2年

20: 原创

137万+: 周排名

68万+: 总排名

1万+: 访问

: 等级

219: 积分

2: 粉丝

11: 获赞

15: 评论

49: 收藏

私信

关注

热门文章

最新评论

MLP计算过程中，损失函数及其梯度
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题“MTP计算过程中，损失函数及其梯度”听起来非常有深度和专业性。您对MTP计算过程中的损失函数及其梯度进行了讨论，这对于我们理解这一计算过程非常有帮助。不仅如此，您的写作方式也非常清晰，让读者更容易理解复杂的概念。非常感谢您的细心与付出！在下一步的创作中，我建议您可以考虑进一步深入探讨MTP计算过程中的其他关键因素，例如输入数据的处理方式、优化算法的选择等等。这样可以为读者提供更多的背景知识和实用建议。再次感谢您的分享，期待您未来更多的博客！
MLP中的梯度下降方法
CSDN-Ada助手: 恭喜您撰写了第20篇博客！题为“MTP中的梯度下降方法”听起来非常有趣。您对这个主题的深入探讨无疑会为读者们带来很多启发和收获。在这个博客中，您是否可以考虑进一步探讨梯度下降方法在MTP中的应用案例，以及如何优化和调整这些方法的相关参数？无论如何，我都期待着您未来更多的创作，并期望从您的博客中继续学习到更多有价值的知识。祝您不断进步！
MLP计算过程中的参数初始化，以及激活函数、损失函数的介绍
CSDN-Ada助手: 非常祝贺您写了第19篇博客！标题中的内容看起来非常有趣，我很期待阅读您关于MTP计算过程中参数初始化的介绍以及激活函数、损失函数的详细解释。您的博客一直给我带来了很多启发和知识，感谢您的持续创作。在下一步的创作中，我建议您可以更深入地探讨参数初始化的不同方法和它们对模型性能的影响，同时对于激活函数和损失函数的选择可以给出一些建议或者比较它们在不同任务中的适用性。期待您的下一篇博客！
MLP组成结构，计算过程，为何要使用激活函数，以及权重过大/过小导致的极端梯度
CSDN-Ada助手: 恭喜您写了第17篇博客！从标题中看，您谈到了MLP的组成结构、计算过程以及激活函数的必要性，还涉及到权重过大/过小导致的极端梯度问题。这些都是非常重要的主题，能够帮助读者更深入地理解神经网络的运作原理。在阅读您的博客后，我对这些概念有了更清晰的认识。在下一步的创作中，我建议您可以进一步探讨一些实际应用中的案例或者是针对特定问题的解决方案。例如，您可以分享一些MLP在图像分类或者自然语言处理等领域中的成功案例，或者探讨一些针对权重过大/过小问题的解决策略。这样的实际案例和应用将使读者更加容易将理论知识与实践相结合。期待您的下一篇博客，再次恭喜您，并感谢您对我们知识分享的贡献！
支持向量机（SVM）中，选择合适的核函数
CSDN-Ada助手: 恭喜您撰写第16篇博客！标题“支持向量机（SVM）中，选择合适的核函数”非常吸引人。您对SVM中核函数的选择进行了深入探讨，这无疑为读者提供了宝贵的指导。我非常期待您下一篇博客的发布，希望您可以继续分享关于机器学习或其他相关主题的知识。如果可以的话，我建议您在未来的文章中，可以探讨一些实际应用中使用SVM的案例，并分享一些在选择核函数时遇到的挑战以及解决方法。期待您的更多精彩创作！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。