自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 Anaconda环境下pytorch环境部署

参考链接:PyTorch环境配置及安装:https://www.cnblogs.com/zhouzhiyao/p/11784055.html**pytorch下载太慢的解决办法:**https://blog.csdn.net/qq_41936559/article/details/102699082**pytorch官网:**https://pytorch.org/记住:没有cuda可以下...

2020-03-29 00:13:56 195

原创 【知识图谱构建】从Mysql读取数据批量导入到Neo4j图数据库中

一 连接Mysql数据库,读取数据ReadMysql2.py 代码如下:注意:填写自己的数据库名字和密码!!!# -*- coding: utf-8 -*-"""Created on 2020/3/21@author: GaoRongxuan"""import pymysqldef read_mysql(sql): ''' 从mysql数据库中读取数据...

2020-03-21 18:31:24 2548 4

原创 NLP之文本分类实战

文本分类的目的:知道这个文档是做什么的!训练数据使用sklearn提供的新闻媒体的数据**步骤:**先使用向量空间模型将文本表示为向量,之后TF—IDF特征计算,然后使用朴素贝叶斯作为文本分类器,并在sklearn数据集上进行测试。最后使用常用评估方法来评估分类器的结果。# -*- coding: gb2312 -*-from sklearn.datasets import fetch...

2020-03-21 15:15:56 548

原创 NLP之统计语言模型—N元模型(N-Gram)

总的来说,语言模型可以分为两种,分别是规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位的内在统计规律,广泛应用于机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。N-Gram假设:第n个词的出现只与前面的n-1个词相关,而与其他任何词都不相关,整句的概率是各个词出现概率的乘积。这种可以结合上下文方法其实就是马尔可夫假设,结合上下文信息,预测将要出现的那...

2020-03-21 13:48:52 1604

原创 NLP之语义角色标注

语义角色标注需要提取以动词为核心的所有信息,包含什么时间、什么地点、动作对象以及谁作出了这个动作。语义角色标注中的几个重要概念:谓词:在一个句子中,谓语是对于主语的描述或判断的词,通常为一个动词。在句中谓词指出“做什么”、“是什么”、“怎么样”,代表了一个句子的核心。论元:在句子中和谓词搭配的通常是一个名词,我们称其为论元。语义角色:我们在为论元加上一些描述,指出它和动词搭配时担任的...

2020-03-21 13:14:09 1893

原创 NLP之依存句法分析

句法分析:其主要任务是确定句子的句法结构或者句子中词汇之间的依存关系。句法分析主要包括两方面:一是确定语言的语法体系,即对语言中合法的句子的语法结构与形式化的定义;第二是句法结构分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。NLP领域最为广泛的两种语法分析理论,分别为转换生成语法和依存语法。依存句法满足以下五点:一...

2020-03-21 10:25:24 1073

原创 NLP之词性标注-Jieba标注

词性标注:将词汇按照词性进行分来并相应地进行标注。Jieba词性标注的基本原理可以概括为:对于需要标注的词,如果词典中包括该词,就从词典中读取该词的词性;如果没有该词,则用Viterbi算法来进行词性估计。代码展示:# -*- coding: utf-8 -*-import jieba.posseg as psegwords=pseg.cut("我爱北京天安门")for word,...

2020-03-20 10:27:09 649

原创 NLP之文本表示—N-gram表示

词频或词频-逆文档频率的方法表示文本非常容易理解,但是这种向量表示会忽视文档的词序和语法结构。N-gram是将连续的n个词作为向量空间中的一个维度。在该语法中,向量空间也被称为词袋(Bag-of-words),对于一个文本,忽略其词序和语法、句法,将其仅仅看作是一个词集合,或者说是一个词的组合,文中的每个词的出现都是独立的,不依赖于其他词是否出现,可以将不同维度看作一个袋子里面的很多词。举例...

2020-03-20 09:34:52 1986

原创 NLP之词频向量化-sklearn模块

在scikit-learn工具包中有特征提取模块可以快速将文本表示为向量。sklearn在实现文本表示时默认方式是将语料中的每个分词(忽略单个字或字母的词)看作一个特征,将多个·文档表示成一个矩阵形式,每一行为一篇文档。每篇文档为固定长度,这个长度为分词总数。python安装sklearn模块 pip install -U scikit-learn假设我们有多篇文档,现在使用 vect...

2020-03-19 18:20:03 1766

原创 Mysql安装图文教程

对比过很多Mysql安装教材,推荐:(https://www.cnblogs.com/zaid/p/MySQL.html)最详细啦!

2020-03-17 12:07:11 227

原创 NLP之文本表示——二值文本表示

文本原始结构为非结构化的字符串,大部分的模型和算法都不能处理非结构化的数据。因此,我们需要将非结构化的数据结构化。方法:将文本映射到特定的特征空间上,将文本表示为能够刻画其信息的特征向量,使得我们可以利用各种算法模型来处理这些文本数据。什么样的特征能刻画文本信息呢?将特征选为文本中出现的词,通过定义词在文本中的重要度得到文本的向量表示。在主流的文本表示方法中,大致可以将文本表示方法分为...

2020-03-16 11:42:51 239

原创 NLP之词频统计实战

# -*- coding: gb2312 -*-'''2020/3.25 词频统计'''#读入数据raw_content=[]with open('3635.txt',"r",encoding='UTF8') as fin: [raw_content.append(line) for line in fin.readlines() if line.strip()!=''] ...

2020-03-15 23:20:54 1209

原创 【NLP之文本预处理】使用正达则式去除或替换无用信息

一 文本预处理介绍文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情,繁琐且涉及细节很多。预处理做的不好,对后面的建模分析等等都会有很大的影响。

2020-03-03 13:30:14 1339

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除