Soyoger
申明:个人微信公众号:AI技术研习社,公众号ID:ai2club。本博客只是用来学习,并不从事任何商业活动,其内容是自己总结或者来自互联网搜索到的,并没有过多关注版权问题,如有侵权内容,请私信我进行删除,谢谢。本博客内容主要围绕计算机领域热点技术和工作内容,不涉及版权问题,任何人可以查看、转载。
展开
-
开篇词:中文自然语言处理——未来数据领域的珠穆朗玛峰
人工智能或许是人类最美好的梦想之一。追溯到公元前仰望星空的古希腊人,当亚里士多德为了解释人类大脑的运行规律而提出了联想主义心理学的时候,他恐怕不会想到,两千多年后的今天,人们正在利用联想主义心理学衍化而来的人工神经网络,构建的超级人工智能成为最能接近梦想的圣境,并一次又一次地挑战人类大脑认知的极限。在以大数据、云计算为背景的技术框架支撑下,互联网发展极为迅速,过去一个技术或者行业热点从诞生到消亡...原创 2020-09-22 12:18:53 · 1898 阅读 · 0 评论 -
第01课:中文自然语言处理的完整机器处理流程
2016年全球瞩目的围棋大战中,人类以失败告终,更是激起了各种“机器超越、控制人类”的讨论,然而机器真的懂人类吗?机器能感受到人类的情绪吗?机器能理解人类的语言吗?如果能,那它又是如何做到呢?带着这样好奇心,本文将带领大家熟悉和回顾一个完整的自然语言处理过程,后续所有章节所有示例开发都将遵从这个处理过程。首先我们通过一张图(来源:网络)来了解 NLP 所包含的技术知识点,这张图从分析对象和分析内...原创 2020-09-22 12:18:52 · 1302 阅读 · 0 评论 -
第02课:简单好用的中文分词利器 jieba 和 HanLP
前言从本文开始,我们就要真正进入实战部分。首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习。中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。jieba 分词jieb...原创 2020-09-22 12:18:50 · 1324 阅读 · 0 评论 -
第03课:动手实战中文文本中的关键字提取
前言关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作。关键词抽取从...原创 2020-09-22 12:18:49 · 2245 阅读 · 0 评论 -
第04课:了解数据必备的文本可视化技巧
为什么要文本数据可视化文字是传递信息最常用的载体,随着海量文本的涌现,信息超载和数据过剩等问题日益凸显,当大段大段的文字摆在面前,已经很少有人耐心、认真把它读完,人们急需一种更高效的信息接收方式,从视觉的角度出发,文本可视化正是解药良方。所谓一图胜千言,其实就是文本可视化的一种表现。因此,文本可视化技术将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来,使人们能够利用与生...原创 2020-09-22 12:18:47 · 1439 阅读 · 0 评论 -
第05课:面向非结构化数据转换的词袋和词向量模型
通过前面几个小节的学习,我们现在已经学会了如何获取文本预料,然后分词,在分词之后的结果上,我们可以提取文本的关键词查看文本核心思想,进而可以通过可视化技术把文档从视觉的角度表达出来。下面,我们来看看,文本数据如何转换成计算机能够计算的数据。这里介绍两种常用的模型:词袋和词向量模型。词袋模型(Bag of Words Model)词袋模型的概念先来看张图,从视觉上感受一下词袋模型的样子。...原创 2020-09-22 12:18:46 · 908 阅读 · 0 评论 -
第06课:动手实战基于 ML 的中文短文本分类
文本分类,属于有监督学习中的一部分,在很多场景下都有应用,下面通过小数据的实例,一步步完成中文短文本的分类实现,整个过程尽量做到少理论重实战。开发环境,我们选择:Windows 系统Python 3.6Jupyter Notebook本文使用的数据是我曾经做过的一份司法数据,需求是对每一条输入数据,判断事情的主体是谁,比如报警人被老公打,报警人被老婆打,报警人被儿子打,报警人被女儿...原创 2020-09-22 12:18:45 · 953 阅读 · 0 评论 -
第07课:动手实战基于 ML 的中文短文本聚类
关于文本聚类,我曾在 Chat《NLP 中文文本聚类之无监督学习》中介绍过,文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算哪些点距离比较近,从而将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。如下图,以 K、M、N 三个点分别为聚类的簇心,将结果聚为三类,使得簇内点的距离尽量的近,但簇与...原创 2020-09-22 12:18:43 · 1071 阅读 · 0 评论 -
第08课:从自然语言处理角度看 HMM 和 CRF
近几年在自然语言处理领域中,HMM(隐马尔可夫模型)和 CRF(条件随机场)算法常常被用于分词、句法分析、命名实体识别、词性标注等。由于两者之间有很大的共同点,所以在很多应用上往往是重叠的,但在命名实体、句法分析等领域 CRF 似乎更胜一筹。通常来说如果做自然语言处理,这两个模型应该都要了解,下面我们来看看本文的内容。从贝叶斯定义理解生成式模型和判别式模型理解 HMM(隐马尔可夫模型)和 CR...原创 2020-09-22 12:18:42 · 746 阅读 · 0 评论 -
第09课:一网打尽神经序列模型之 RNN 及其变种 LSTM、GRU
首先,我们来思考下,当人工神经网络从浅层发展到深层;从全连接到卷积神经网络。在此过程中,人类在图片分类、语音识别等方面都取得了非常好的结果,那么我们为什么还需要循环神经网络呢?因为,上面提到的这些网络结构的层与层之间是全连接或部分连接的,但在每层之间的节点是无连接的,这样的网络结构并不能很好的处理序列数据。序列数据的处理,我们从语言模型 N-gram 模型说起,然后着重谈谈 RNN,并通过 ...原创 2020-09-22 12:18:40 · 932 阅读 · 0 评论 -
第10课:动手实战基于 CNN 的电影推荐系统
本文从深度学习卷积神经网络入手,基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。什么是推荐系统呢?什么是推荐系统呢?首先我们来看看几个常见的推荐场景。如果你经常通过豆瓣电影评分来找电影,你会发现下图所示的推荐:如果你喜欢购物,根据你的选择和购物行为,平台会给你推荐相似商品:在互联网的很多场景下都可以看到推荐的影子。因为推荐可以帮助用户和商家满足不同的需...原创 2020-09-22 12:18:39 · 1773 阅读 · 0 评论 -
第11课:动手实战基于 LSTM 轻松生成各种古诗
目前循环神经网络(RNN)已经广泛用于自然语言处理中,可以处理大量的序列数据,可以说是最强大的神经网络模型之一。人们已经给 RNN 找到了越来越多的事情做,比如画画和写诗,微软的小冰都已经出版了一本诗集了。而其实训练一个能写诗的神经网络并不难,下面我们就介绍如何简单快捷地建立一个会写诗的网络模型。本次开发环境如下:Python 3.6Keras 环境Jupyter Notebook...原创 2020-09-22 12:18:37 · 842 阅读 · 0 评论 -
第13课:动手制作自己的简易聊天机器人
自动问答简介自动聊天机器人,也称为自动问答系统,由于所使用的场景不同,叫法也不一样。自动问答(Question Answering,QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广...原创 2020-09-22 12:18:34 · 1375 阅读 · 0 评论 -
第14课:动手实战中文命名实体提取
命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体,比如,2015年中国国家海洋局对124个国际海底地理实体的命名。由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。...原创 2020-09-22 12:18:32 · 2196 阅读 · 0 评论 -
第15课:基于 CRF 的中文命名实体识别模型实现
命名实体识别在越来越多的场景下被应用,如自动问答、知识图谱等。非结构化的文本内容有很多丰富的信息,但找到相关的知识始终是一个具有挑战性的任务,命名实体识别也不例外。前面我们用隐马尔可夫模型(HMM)自己尝试训练过一个分词器,其实 HMM 也可以用来训练命名实体识别器,但在本文,我们讲另外一个算法——条件随机场(CRF),来训练一个命名实体识别器。浅析条件随机场(CRF)条件随机场(Condi...原创 2020-09-22 12:18:31 · 1234 阅读 · 0 评论 -
第16课:动手实战中文句法依存分析
句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。句法分析被用在很多场景中,比如搜索引擎用户日志分析和关键词识别,比如信息抽...原创 2020-09-22 12:18:29 · 1807 阅读 · 0 评论 -
第17课:基于 CRF 的中文句法依存分析模型实现
句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。依存关系本身是一个树结构,每一个词看成一个节点,依存关系就是一条有向边。本文主要通过...原创 2020-09-22 12:18:28 · 842 阅读 · 0 评论 -
第18课:模型部署上线的几种服务发布方式
在前面所有的模型训练和预测中,我们训练好的模型都是直接通过控制台或者 Jupyter Notebook 来进行预测和交互的,在一个系统或者项目中使用这种方式显然不可能,那在 Web 应用中如何使用我们训练好的模型呢?本文将通过以下四个方面对该问题进行讲解:微服务架构简介;模型的持久化与加载方式;Flask 和 Bottle 微服务框架;Tensorflow Serving 模型部署和服务...原创 2020-09-22 12:18:26 · 1517 阅读 · 0 评论 -
第19课:知识挖掘与知识图谱概述
搜索技术日新月异,如今它不再是搜索框中输入几个单词那么简单了。不仅输入方式多样化,并且还要在非常短的时间内给出一个精准而又全面的答案。目前,谷歌给出的解决方案就是——知识图谱(Knowledge Graph)。知识图谱能做什么?知识图谱想做的,就是在不同数据(来自现实世界)之间建立联系,从而带给我们更有意义的搜索结果。比如,在上图中,用 Google 搜索自然语言处理,右侧会显示研究领域和...原创 2020-09-22 12:18:25 · 1092 阅读 · 0 评论 -
第20课:Neo4j 从入门到构建一个简单知识图谱
Neo4j 对于大多数人来说,可能是比较陌生的。其实,Neo4j 是一个图形数据库,就像传统的关系数据库中的 Oracel 和 MySQL一样,用来持久化数据。Neo4j 是最近几年发展起来的新技术,属于 NoSQL 数据库中的一种。本文主要从 Neo4j 为什么被用来做知识图谱,Neo4j 的简单安装,在 Neo4j 浏览器中创建节点和关系,Neo4j 的 Python 接口操作以及用 Neo...原创 2020-09-22 12:18:23 · 2752 阅读 · 0 评论 -
第21课:中文自然语言处理的应用、现状和未来
自然语言理解和自然语言生成是自然语言处理的两大内核,机器翻译是自然语言理解方面最早的研究工作。自然语言处理的主要任务是:研究表示语言能力和语言应用的模型,建立和实现计算框架并提出相应的方法不断地完善模型,根据这样的语言模型设计有效地实现自然语言通信的计算机系统,并研讨关于系统的评测技术,最终实现用自然语言与计算机进行通信。目前,具有一定自然语言处理能力的典型应用包括计算机信息检索系统、多语种翻译系...原创 2020-09-22 12:18:22 · 2254 阅读 · 0 评论 -
Chat:NLP 中文短文本分类项目实践(上)
目前,随着大数据、云计算对关系型数据处理技术趋向稳定成熟,各大互联网公司对关系数据的整合也已经落地成熟,笔者预测未来数据领域的挑战将主要集中在半结构化和非结构化数据的整合,NLP 技术对个人发展越来越重要,尤其在中文文本上挑战更大。在本场 Chat 以及现在和未来工作中,笔者都将致力于中文文本的挖掘与开发,而且是通过实战来增加对中文 NLP 需求的应用理解。由于是第一讲,笔者在本次 Chat ...原创 2020-09-22 12:18:20 · 1261 阅读 · 0 评论 -
NLP 中文短文本分类项目实践(下)
本场 Chat 和《NLP 中文短文本分类项目实践(上)》可以看做姊妹篇,在上一篇的基础上,本篇主要讲一下文本分类在集成学习和深度学习方面的应用,由于内容比较多,笔者不可能面面俱到。下面我们先从集成学习说起。一、数据科学比赛大杀器 XGBoost 实战文本分类在说 XGBoost 之前,我们先简单从树模型说起,典型的决策树模型。决策树的学习过程主要包括:特征选择: 从训练数据的特征中选择一...原创 2020-09-22 12:18:19 · 1833 阅读 · 0 评论