2020年03月_NLP小姐姐

原创 Anaconda环境下pytorch环境部署

参考链接：PyTorch环境配置及安装：https://www.cnblogs.com/zhouzhiyao/p/11784055.html**pytorch下载太慢的解决办法：**https://blog.csdn.net/qq_41936559/article/details/102699082**pytorch官网：**https://pytorch.org/记住：没有cuda可以下...

2020-03-29 00:13:56 195

原创【知识图谱构建】从Mysql读取数据批量导入到Neo4j图数据库中

一连接Mysql数据库，读取数据ReadMysql2.py 代码如下：注意：填写自己的数据库名字和密码！！！# -*- coding: utf-8 -*-"""Created on 2020/3/21@author: GaoRongxuan"""import pymysqldef read_mysql(sql): ''' 从mysql数据库中读取数据...

2020-03-21 18:31:24 2548 4

原创 NLP之文本分类实战

文本分类的目的：知道这个文档是做什么的！训练数据使用sklearn提供的新闻媒体的数据**步骤：**先使用向量空间模型将文本表示为向量，之后TF—IDF特征计算，然后使用朴素贝叶斯作为文本分类器，并在sklearn数据集上进行测试。最后使用常用评估方法来评估分类器的结果。# -*- coding: gb2312 -*-from sklearn.datasets import fetch...

2020-03-21 15:15:56 548

总的来说，语言模型可以分为两种，分别是规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位的内在统计规律，广泛应用于机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。N-Gram假设：第n个词的出现只与前面的n-1个词相关，而与其他任何词都不相关，整句的概率是各个词出现概率的乘积。这种可以结合上下文方法其实就是马尔可夫假设，结合上下文信息，预测将要出现的那...

2020-03-21 13:48:52 1604

原创 NLP之语义角色标注

语义角色标注需要提取以动词为核心的所有信息，包含什么时间、什么地点、动作对象以及谁作出了这个动作。语义角色标注中的几个重要概念：谓词：在一个句子中，谓语是对于主语的描述或判断的词，通常为一个动词。在句中谓词指出“做什么”、“是什么”、“怎么样”，代表了一个句子的核心。论元：在句子中和谓词搭配的通常是一个名词，我们称其为论元。语义角色：我们在为论元加上一些描述，指出它和动词搭配时担任的...

2020-03-21 13:14:09 1893

原创 NLP之依存句法分析

句法分析：其主要任务是确定句子的句法结构或者句子中词汇之间的依存关系。句法分析主要包括两方面：一是确定语言的语法体系，即对语言中合法的句子的语法结构与形式化的定义；第二是句法结构分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位和这些句法单位之间的关系。NLP领域最为广泛的两种语法分析理论，分别为转换生成语法和依存语法。依存句法满足以下五点：一...

2020-03-21 10:25:24 1073

原创 NLP之词性标注-Jieba标注

词性标注：将词汇按照词性进行分来并相应地进行标注。Jieba词性标注的基本原理可以概括为：对于需要标注的词，如果词典中包括该词，就从词典中读取该词的词性；如果没有该词，则用Viterbi算法来进行词性估计。代码展示：# -*- coding: utf-8 -*-import jieba.posseg as psegwords=pseg.cut("我爱北京天安门")for word,...

2020-03-20 10:27:09 649

原创 NLP之文本表示—N-gram表示

词频或词频-逆文档频率的方法表示文本非常容易理解，但是这种向量表示会忽视文档的词序和语法结构。N-gram是将连续的n个词作为向量空间中的一个维度。在该语法中，向量空间也被称为词袋（Bag-of-words)，对于一个文本，忽略其词序和语法、句法，将其仅仅看作是一个词集合，或者说是一个词的组合，文中的每个词的出现都是独立的，不依赖于其他词是否出现，可以将不同维度看作一个袋子里面的很多词。举例...

2020-03-20 09:34:52 1986

原创 NLP之词频向量化-sklearn模块

在scikit-learn工具包中有特征提取模块可以快速将文本表示为向量。sklearn在实现文本表示时默认方式是将语料中的每个分词（忽略单个字或字母的词）看作一个特征，将多个·文档表示成一个矩阵形式，每一行为一篇文档。每篇文档为固定长度，这个长度为分词总数。python安装sklearn模块 pip install -U scikit-learn假设我们有多篇文档，现在使用 vect...

2020-03-19 18:20:03 1766

原创 Mysql安装图文教程

对比过很多Mysql安装教材，推荐：(https://www.cnblogs.com/zaid/p/MySQL.html)最详细啦！

2020-03-17 12:07:11 227

原创 NLP之文本表示——二值文本表示

文本原始结构为非结构化的字符串，大部分的模型和算法都不能处理非结构化的数据。因此，我们需要将非结构化的数据结构化。方法：将文本映射到特定的特征空间上，将文本表示为能够刻画其信息的特征向量，使得我们可以利用各种算法模型来处理这些文本数据。什么样的特征能刻画文本信息呢？将特征选为文本中出现的词，通过定义词在文本中的重要度得到文本的向量表示。在主流的文本表示方法中，大致可以将文本表示方法分为...

2020-03-16 11:42:51 239

原创 NLP之词频统计实战

# -*- coding: gb2312 -*-'''2020/3.25 词频统计'''#读入数据raw_content=[]with open('3635.txt',"r",encoding='UTF8') as fin: [raw_content.append(line) for line in fin.readlines() if line.strip()!=''] ...

2020-03-15 23:20:54 1209

原创【NLP之文本预处理】使用正达则式去除或替换无用信息

一文本预处理介绍文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情，繁琐且涉及细节很多。预处理做的不好，对后面的建模分析等等都会有很大的影响。

2020-03-03 13:30:14 1339

weixin_43439235的博客