![](https://img-blog.csdnimg.cn/20210411172128954.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理【技术方向】
文章平均质量分 92
应用人工智能算法的自然语言处理,以及部分自然语言处理知识(与人工智能并不完全重合)
博士僧小星
985博士研究生
展开
-
科研学习|论文解读——指导关键词组提取的局部词向量
我们认为,这种对单词和关键词组的局部表示能够准确地捕捉它们在文档中的语义,因此有助于提高关键词组的提取质量。实证结果提供的证据表明,与在非常大的第三语料库或由同一科学领域的多个文档组成的更大的语料库上训练的嵌入以及其他最先进的无监督关键词组提取方法相比,局部表示确实可以带来更好的关键词组提取结果。第三阶段涉及关键词组的形成,其中排名靠前的词汇单元被用作关键字或关键词组的组成部分。然后,从标题和摘要中提取候选关键词组,并根据它们与参考向量的余弦相似度对它们进行排序,越接近参考向量的词向量就越有代表性。原创 2024-03-14 15:12:15 · 986 阅读 · 0 评论 -
人工智能 | 自然语言处理 —— 自然语言处理的一般流程
整个过程一般可以概括为四部分,语料预处理->特征工程->模型训练->指标评价第一部分:语料预处理通过语料清洗、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。(1)语料清洗数据清洗,顾名思义就是在语料中找到我们感兴趣的东西,把不感兴趣的、视为噪音的内容清洗删除,包括对于原始文本提取标题、摘要、正文等信息。对于爬取的网页内容,去除广告、标签、HTML、JS 等代码和注释等。常见的数据清洗方式有:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根.转载 2021-04-11 17:29:55 · 3012 阅读 · 0 评论