自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

山阴少年

微信公众号: Python爬虫与算法(微信号为:easy_web_scrape)

原创 NLP(三十一)短语的语序问题

  所谓的短语的语序问题,即给定一个打乱顺序的短语,我们要按照语义信息将其重新组合,新的语序通顺的短语。   举个简单例子,比如我们在识别验证码中的文字的时候,识别出来的文字分别为“哲”,“思”,“学”,“想”,那么重合调整语序后形成的短语应该为“哲学思想”。   这样的问题也会经常出现,除了验证...

2020-05-18 21:27:00 156 0

原创 NLP(三十)利用ALBERT和机器学习来做文本分类

  本文的灵感来自于A Visual Guide to Using BERT for the First Time,其作者为Jay Alammar,访问网址为:http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-...

2020-05-17 21:56:15 346 1

原创 NLP(二十九)一步一步,理解Self-Attention

  本文大部分内容翻译自Illustrated Self-Attention, Step-by-step guide to self-attention with illustrations and code,仅用于学习,如有翻译不当之处,敬请谅解! 什么是Self-Attention(自注意力机...

2020-05-08 00:03:47 134 1

原创 NLP(二十八)多标签文本分类

多标签文本分类之从电影简介预测影片类型

2020-04-10 10:49:43 612 4

原创 NLP(二十七)开放领域的三元组抽取的一次尝试

  当我写下这篇文章的时候,我的内心是激动的,这是因为,自从去年6月份写了文章利用关系抽取构建知识图谱的一次尝试 后,我就一直在试图寻找一种在开放领域能够进行三元组抽取的办法,也有很多读者问过我这方面的问题,今天,笔者将给出答复,虽然不是正确答案(现在也没有正确答案),但至少,我写下了自己的答案。...

2020-03-21 20:08:57 1079 3

原创 NLP(二十六)限定领域的三元组抽取的一次尝试

  本文将会介绍笔者在2019语言与智能技术竞赛的三元组抽取比赛方面的一次尝试。由于该比赛早已结束,笔者当时也没有参加这个比赛,因此没有测评成绩,我们也只能拿到训练集和验证集。但是,这并不耽误我们在这方面做实验。 比赛介绍   该比赛的网址为:http://lic2019.ccf.org.cn/k...

2020-03-15 18:39:14 1104 2

原创 NLP(二十五)实现ALBERT+Bi-LSTM+CRF模型

  在文章NLP(二十四)利用ALBERT实现命名实体识别中,笔者介绍了ALBERT+Bi-LSTM模型在命名实体识别方面的应用。   在本文中,笔者将介绍如何实现ALBERT+Bi-LSTM+CRF模型,以及在人民日报NER数据集和CLUENER数据集上的表现。   功能项目方面的介绍里面不再多...

2020-03-12 21:49:02 1944 3

原创 NLP(二十四)利用ALBERT实现命名实体识别

  本文将会介绍如何利用ALBERT来实现命名实体识别。如果有对命名实体识别不清楚的读者,请参考笔者的文章NLP入门(四)命名实体识别(NER) 。   本文的项目结构如下:   其中,albert_zh为ALBERT提取文本特征模块,这方面的代码已经由别人开源,我们只需要拿来使用即可。data...

2020-03-11 22:56:44 1852 14

原创 NLP(二十三)序列标注算法评估模块seqeval的使用

  在NLP中,序列标注算法是常见的深度学习模型,但是,对于序列标注算法的评估,我们真的熟悉吗?   在本文中,笔者将会序列标注算法的模型效果评估方法和seqeval的使用。 序列标注算法的模型效果评估   在序列标注算法中,一般我们会形成如下的序列列表,如下: ['O', &...

2020-03-10 23:32:41 465 0

原创 知识图谱构建举例

  笔者在去年的时候,给出了利用深度学习来构建知识图谱的一次尝试,文章为:利用关系抽取构建知识图谱的一次尝试 ,本文将会更出更多的例子,也是笔者近一个星期的忙碌结果。   下面为知识图谱构建的例子,由笔者原创,是从新闻或者小说中直接抽取而来,加上大量时间的人工整理而得到,下面的图片是从Neo4J导...

2020-03-05 22:20:04 650 0

原创 NLP(二十二)利用ALBERT实现文本二分类

  在文章NLP(二十)利用BERT实现文本二分类中,笔者介绍了如何使用BERT来实现文本二分类功能,以判别是否属于出访类事件为例子。但是呢,利用BERT在做模型预测的时候存在预测时间较长的问题。因此,我们考虑用新出来的预训练模型来加快模型预测速度。   本文将介绍如何利用ALBERT来实现文本二...

2020-03-05 16:01:31 1107 0

原创 NLP(二十一)人物关系抽取的一次实战

  去年,笔者写过一篇文章利用关系抽取构建知识图谱的一次尝试,试图用现在的深度学习办法去做开放领域的关系抽取,但是遗憾的是,目前在开放领域的关系抽取,还没有成熟的解决方案和模型。当时的文章仅作为笔者的一次尝试,在实际使用过程中,效果有限。   本文将讲述如何利用深度学习模型来进行人物关系抽取。人物...

2020-02-18 21:46:20 1687 2

原创 NLP(二十)利用BERT实现文本二分类

  如您需要阅读该文章,请访问博客园网址:https://www.cnblogs.com/jclian91/p/12301056.html ,或者微信公众号网址: https://mp.weixin.qq.com/s?__biz=MzU2NTYyMDk5MQ==&mid=224748449...

2020-02-13 11:36:12 955 0

原创 NLP(十九)首次使用BERT的可视化指导

  本文翻译自文章A Visual Guide to Using BERT for the First Time,作者为Jay Alammar,访问网址为:http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-ti...

2020-02-11 18:14:26 1077 0

原创 利用关系抽取构建知识图谱的一次尝试

关系抽取   信息抽取(Information Extraction, IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取(Relation Extraction, RE)是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系,是自然语言处理(NLP)中的...

2020-01-13 22:59:45 2438 4

原创 NLP(十八)利用ALBERT提升模型预测速度的一次尝试

前沿   在文章NLP(十七)利用tensorflow-serving部署kashgari模型中,笔者介绍了如何利用tensorflow-serving部署来部署深度模型模型,在那篇文章中,笔者利用kashgari模块实现了经典的BERT+Bi-LSTM+CRF模型结构,在标注了时间的文本语料(大...

2019-10-18 23:45:05 3013 23

原创 NLP(十五)让模型来告诉你文本中的时间

背景介绍   在文章NLP入门(十一)从文本中提取时间 中,笔者演示了如何利用分词、词性标注的方法从文本中获取时间。当时的想法比较简单快捷,只是利用了词性标注这个功能而已,因此,在某些地方,时间的识别效果并不太好。比如以下的两个例子: 原文1: 苏北大量农村住房建于上世纪80年代之前。去年9月,...

2019-10-18 20:43:55 1524 0

原创 NLP(十七)利用tensorflow-serving部署kashgari模型

  在文章NLP(十五)让模型来告诉你文本中的时间中,我们已经学会了如何利用kashgari模块来完成序列标注模型的训练与预测,在本文中,我们将会了解如何tensorflow-serving来部署模型。   在kashgari的官方文档中,已经有如何利用tensorflow-serving来部署模...

2019-10-18 20:43:19 1600 2

原创 NLP(十六)轻松上手文本分类

背景介绍   文本分类是NLP中的常见的重要任务之一,它的主要功能就是将输入的文本以及文本的类别训练出一个模型,使之具有一定的泛化能力,能够对新文本进行较好地预测。它的应用很广泛,在很多领域发挥着重要作用,例如垃圾邮件过滤、舆情分析以及新闻分类等。   现阶段的文本分类模型频出,种类繁多,花样百变...

2019-08-14 01:31:22 1322 7

原创 NLP(十四)自制序列标注平台

背景介绍   在平时的NLP任务中,我们经常用到命名实体识别(NER),常用的识别实体类型为人名、地名、组织机构名,但是我们往往也会有识别其它实体的需求,比如时间、品牌名等。在利用算法做实体识别的时候,我们一般采用序列标注算法,这就对标注的文本格式有一定的要求,因此,一个好的序列标注的平台必不可少...

2019-08-09 00:07:08 1021 0

原创 NLP(十三)中文分词工具的使用尝试

  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。   首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分型模型cws.model。在用户字典中添加以下5个词语: 经 少安 贺凤英 F-35战斗...

2019-08-03 17:22:20 912 0

原创 NLP(十二)依存句法分析的可视化及图分析

  依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在日常的工作中,我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果,一个重要的方面便是其可视化和它的图分析。   我们使用的NLP工具为jieba和LTP,其中jieba用于分词,LTP用于词性标注和句法...

2019-07-29 23:05:34 2877 3

原创 NLP入门(十一)从文本中提取时间

  在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,本文将介绍如何从文本中有效地提取时间。   举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权威公布《2019年5月月报》,杭州市医保参保人数达到1006万,相比于2月份的989万,三个月暴...

2019-07-14 19:43:13 2604 3

原创 BERT的几个可能的应用

  BERT是谷歌公司于2018年11月发布的一款新模型,它一种预训练语言表示的方法,在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。一经公布,它便引爆了整个NLP界,其在11个主流NLP任务中都取得优异的结果,因此成为NLP领域最吸引人的一个模...

2019-06-07 11:12:40 1415 0

原创 NLP入门(十)使用LSTM进行文本情感分析

情感分析简介   文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。   本文将介绍情感分析中的情感极性(倾向)分析。所谓情感极...

2019-05-18 15:55:56 2729 8

原创 NLP入门(九)词义消岐(WSD)的简介与实现

词义消岐简介   词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务。   那么,什么是词义消岐呢?通常,在我们的自然语言中,不管是英语,还是中文,都有多义词存在。这些多义词的存在,会让人对句子的意思产生混淆,...

2019-05-12 00:01:15 2120 0

原创 NLP入门(八)使用CRF++实现命名实体识别(NER)

CRF与NER简介   CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场。   较为简单的条件随机场是定义在线性链上的条件随机场,称...

2019-04-30 12:57:57 1794 0

原创 NLP入门(七)中文预处理之繁简体转换及获取拼音

  在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现。   首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可: langconv.py 地址: https://...

2019-02-01 14:04:48 1379 1

原创 NLP入门(六)pyltp的介绍与使用

pyltp的简介   语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。   pyltp 是 LTP 的 Python 封装,同时支持Pyt...

2019-01-31 18:00:05 1021 2

原创 NLP入门(五)用深度学习实现命名实体识别(NER)

前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具——NLTK和Stanford NLP。在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现NER,只要你坚持看完,就一定会很有收获的。   OK,话不多说,让我们进入正题。   几乎所有的N...

2018-11-16 16:55:50 1289 0

原创 NLP入门(四)命名实体识别(NER)

  本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER)。   命名实体识别(Named Entity Recognition,简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就...

2018-11-14 20:20:36 5254 4

原创 NLP入门(三)词形还原(Lemmatization)

  词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。   简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。比如,单词“cars”词...

2018-11-02 21:21:33 3307 1

原创 NLP入门(二)探究TF-IDF的原理

TF-IDF介绍   TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。   在NLP中,TF-IDF的计算...

2018-11-02 11:40:50 955 0

原创 NLP入门(一)词袋模型及句子相似度

  本文作为笔者NLP入门系列文章第一篇,以后我们就要步入NLP时代。   本文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine similarity)。   首先,让我们来看一下,什么是词袋模型。我们以下面两个简单句子为...

2018-11-01 11:41:54 1876 0

原创 使用Hexo+Github搭建个人博客网站

  曾几何时,笔者也幻想过写个项目来搭建属于自己的个人博客。   但是,写程序以及维护的成本,不禁让我犹豫再三,最后还是选择了CSDN等博客网站。将近三年的博客生涯,我尝试了不同的博客网站,各有各的利和弊,不变的是广告,这让人很不爽。   直到今天,我看到了别人写的利用Hexo+Github来搭建...

2020-06-09 22:00:10 90 0

原创 利用Tornado搭建文档预览系统

  在平时的工作或学习中,我们经常会接触不同格式的文档类型,比如txt,log,Offices文档,编程代码脚本,图片,视频等。本文将会介绍笔者的一个朴素想法,即把不同格式的文档都放在同一个平台中进行预览,这样既方便查看常见文档,又能提升工作和学习效率。   本项目的工程结构如下: ...

2020-06-05 22:42:53 68 0

原创 Tornado+Pyecharts+LayUI搭建个人足迹地图服务

  在之前的文章 Python之绘制个人足迹地图 中,笔者采用Pyecharts和手动修改HTML代码的方式实现了个人足迹地图。本文将会介绍利用Tornado+Pyecharts+LayUI来搭建个人足迹地图web服务,这样我们只需要通过页面点选的方式就能绘制个人足迹地图,简单高效。   前端框架...

2020-06-03 22:13:00 105 0

原创 Python之绘制个人足迹地图

  前两年,足迹地图小程序风靡朋友圈,一时间大家都流行晒自己的旅行地图。但是,笔者最近体验了好几款足迹地图的小程序,发现这些小程序虽然号称是足迹地图,但最多只是展示到省级别,无法精确到市级别,因此,笔者周末花了点时间,用Python来绘制自己的个人足迹地图,可以精确到市级别。   下面的部分,笔者...

2020-05-31 11:25:10 209 0

原创 目标检测初体验(三)破解滑动验证码

  在我们日常登录或注册某个网站的时候,经常会出现滑动验证码,如下图:   本文将会讲述如何利用darknet来破解滑动验证码,我们只要找到图片中的缺口就可以了。 数据的采集和标注   笔者利用爬虫在某网站爬取了约300张带缺口的滑动验证码的图片,并对这些验证码图片进行标注,即标注缺口的位置。 ...

2020-05-24 20:16:08 170 0

原创 如何搭建Git服务器

  本文将介绍如何在Linux系统上搭建Git服务器以及查看Git提交记录。 搭建Git服务器   首先,我们需要一台Linux服务器,作为Git服务部署的机器,一般选用Ubuntu或者Debian,请确保拥有sudo权限并且联网。笔者以Mac电脑上的虚拟机为例,系统为Ubuntu 16.04。 ...

2020-05-18 23:06:28 97 0

提示
确定要删除当前文章?
取消 删除