自然语言
hejp_123
Nothing is impossible
展开
-
在Keras的Embedding层中使用预训练的word2vec词向量
本文的部分工作、代码、数据共享到gethub网站《使用多层级注意力机制和keras实现问题分类》:https://github.com/xqtbox/question-classification-with-multi-level-attention-mechanism-and-keras1 准备工作1.1 什么是词向量?”词向量”(词嵌入)是将一类将词的语义映射到向量空间中去的自然语言处理...转载 2019-11-09 15:55:50 · 962 阅读 · 0 评论 -
gensim 对wiki中文文本语料进行训练Word2vec
gensim的安装pip instll gensim语料库的下载gensim仅提供了Word2Vec的模型实现,训练词向量的另一个必须条件是足够大的文本语料。这里我们将要使用的是中文维基百科语料,直接下载即可:https://pan.baidu.com/s/1qXKIPp6提取密码为 kade。下载之后可以在Sublime中打开并查看其内容,文件名和后缀名可以不用在意...原创 2019-11-09 14:59:26 · 808 阅读 · 0 评论 -
keras进行情感分析汇总
经过一段时间的梳理,今天有时间就把做项目使用的demo写成博客,对研究自然语言的你们提供一些思路。代码都能运行,若有问题,请留言,# -*- coding: utf-8 -*-# @Time : 2019/7/3 9:05# @Author : hejipei# @File : keras_sentiment.py""" """'''好的博客和github''...原创 2019-09-26 16:38:33 · 632 阅读 · 0 评论 -
利用keras进行情感分析(四)
TextBiRNN# -*- coding: utf-8 -*-# @Time : 2019/7/4 9:39# @Author : hejipei# @File : keras_sentiment_TextBiRNN.py""" """# coding=utf-8from keras import Input, Modelfrom keras.layers ...原创 2019-09-25 21:11:13 · 365 阅读 · 0 评论 -
利用keras进行情感分析(三)
RCNNVariant# -*- coding: utf-8 -*-# @Time : 2019/7/4 9:13# @Author : hejipei# @File : keras_sentiment_RCNNVariant.py""" """""" """from keras import Input, Modelfrom keras.layers imp...原创 2019-09-25 21:08:39 · 476 阅读 · 0 评论 -
利用keras进行情感分析(二)
HAN# -*- coding: utf-8 -*-# @Time : 2019/7/4 9:37# @Author : hejipei# @File : keras_sentiment_HAN.py""" """from keras import backend as Kfrom keras import initializers, regularizers, ...原创 2019-09-25 21:05:41 · 381 阅读 · 0 评论 -
利用keras进行情感分析(一)
textRNN# -*- coding: utf-8 -*-# @Time : 2019/7/4 9:56# @Author : hejipei# @File : keras_sentiment_TextRNN.py""" """from keras import Input, Modelfrom keras.layers import Embedding, Den...原创 2019-09-25 21:03:48 · 569 阅读 · 0 评论 -
一个基于深度学习的 CTR 模型包
简洁易用可扩展,一个基于深度学习的 CTR 模型包原标题:简洁易用可扩展,一个基于深度学习的 CTR 模型包01 前言在计算广告和推荐系统中,CTR 预估一直是一个核心问题。无论在工业界还是学术界都是一个热点研究问题,近年来也有若干相关的算法竞赛。本文介绍一个基于深度学习的 CTR 模型包 DeepCTR,具有简洁易用、模块化和可扩展的优点。02 CTR预估简介CTR 预...原创 2019-09-25 20:31:56 · 198 阅读 · 0 评论 -
滴滴开源自然语言理解模型训练平台DELTA
当地时间7月28日至8月2日,自然语言处理领域顶级会议ACL2019在意大利佛罗伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台DELTA,以进一步帮助AI开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力NLP应用更好落地。滴滴自然语言处理首席科学家KevinKnight在ACL2019现场 DELTA是滴滴第22个开...原创 2019-08-05 12:38:27 · 956 阅读 · 0 评论 -
NLP对文本数据处理的大总结--你值得拥有
文档分词在分词的同时需要设置停用词和自定义词典import jiebafrom tqdm import tqdmjieba.load_userdict('userdict.txt') # 本地文档words_stop= [line.strip() for line in open('stop.txt','r',encoding ='utf-8').readlines()] # 本地...原创 2019-07-08 18:30:08 · 1366 阅读 · 0 评论 -
Object arrays cannot be loaded when allow_pickle=False
代码是Deep Learning with Python中的:from keras.datasets import imdb(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)错误最后一行如下Object arrays cannot be loaded when...原创 2019-07-03 10:52:20 · 42670 阅读 · 7 评论 -
gensim计算 文本相似度
文章目录1、gensim使用流程2、代码实现3、过程拆解3.1、生成分词列表3.2、基于文本集建立`词典`,获取特征数3.3、基于词典建立`语料库`3.4、使用`TF-IDF`模型处理语料库,并建立`索引`3.5、用词典把搜索词转成稀疏向量3.6、相似度计算4、附录1、gensim使用流程2、代码...转载 2018-12-29 16:31:49 · 3360 阅读 · 2 评论 -
常用的中文分词工具介绍
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个...转载 2018-12-20 17:12:14 · 8459 阅读 · 0 评论 -
文本数据序列化
结巴文本分词--文本序列化处理import jiebafrom sklearn.model_selection import train_test_splitfrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequences首先对语句进行分析: x_t...原创 2018-12-20 15:25:41 · 1830 阅读 · 0 评论 -
基于sklearn的文本特征抽取
理论机器学习的样本一般都是特征向量,但是除了特征向量以外经常有非特征化的数据,最常见的就是文本结构化数据当某个特征为有限的几个字符串时,可以看成一种结构化数据,处理这种特征的方法一般是将其转为独热码的几个特征。例如仅能取三个字符串的特征:a,b,c,可以将其转换为001,010,100的三个特征。非结构化数据当特征仅是一系列字符串时,可以使用词袋法处理,这种方法不考虑词汇顺序,...原创 2018-12-20 13:54:01 · 414 阅读 · 0 评论