![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
一只进阶的程序媛
好好工作,热爱生活
展开
-
TF-IDF与余弦相似性的应用(一):自动提取关键词
原博链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,...转载 2019-04-30 16:40:24 · 133 阅读 · 0 评论 -
用Python构建NLP Pipeline思路
面向用户:对NLP感兴趣,想学习处理问题思路并通过实例代码练手今天的文章由作者Adam Geitgey授权在人工智能头条翻译发布。不仅给出了具体代码,还一步步详细解析了实现原理和思路。正所谓有了思路,无论是做英语、汉语的语言处理,才算的上有了指导意义。计算机是如何理解人类语言的?让机器理解人类语言,是一件非常困难的事情。计算机的专长在处理结构化数据,但人类语言是非常复杂的,碎片化,...转载 2019-06-28 17:16:34 · 869 阅读 · 0 评论 -
【论文笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
本文主要用于记录谷歌发表于2018年的一篇论文。该论文提出的BERT模型被各地学者媒体美誉为NLP新一代大杀器。本笔记主要为方便初学者快速入门,以及自我回顾。论文链接:https://arxiv.org/pdf/1706.03762.pdf基本目录如下:摘要 核心思想 总结------------------第一菇 - 摘要------------------1.1 论文摘要...转载 2019-06-25 10:22:47 · 870 阅读 · 0 评论 -
自然语言处理入门指南(python实现)
High Lights用python实现NLP的入门指南学习实现NLP的各种技术,包括解析和文本处理了解如何将NLP用于文本特征工程前言大部分数据都是以结构化形式存在的,而文本数据是非结构化数据,比如推文,帖子,聊天对话,新闻,博客文章,产品等。尽管具有高维数据,但需要手动处理才能直接访问。目录1. NLP简介2. 文本预处理2.1 噪声消除2.2 词典规范化词性还原词...翻译 2019-06-12 22:06:23 · 3800 阅读 · 2 评论 -
(转载)TF-IDF与余弦相似性的应用(二):找出相似文章
原博链接:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(c...转载 2019-04-30 16:42:30 · 110 阅读 · 0 评论 -
用隐马尔可夫模型(HMM)做命名实体识别——NER系列(一)
原博python2写的,文末是我改的python3代码隐马尔可夫模型,看上去,和序列标注问题是天然适配的,所以自然而然的,早期很多做命名实体识别和词性标注的算法,都采用了这个模型。这篇文章我将基于码农场的这篇文章《层叠HMM-Viterbi角色标注模型下的机构名识别》,来做解读。但原文中的这个算法实现是融入在HanLP里面的。不过他也有相应的训练词典,所以我在这篇文章里面也给出一个py...转载 2019-08-20 18:40:52 · 4177 阅读 · 0 评论