NLP
Happy丶lazy
这个作者很懒,什么都没留下…
展开
-
pytorch 基于sqs2sqs的中文聊天机器人
由于数据量小,以及我目前无法处理引入“unk”值导致准确率较高的情况,所以还需要进行优化,目前先用这个代码,等我优化好后重新上传,主要分为三步,第一数据的预处理,第二模型的构建,第三测试集处理第一步分为:构建数据,需要构建enc_input,dec_output, dec_input结巴分类以及去掉停用词给enc_input输入值添加一个结束状态,给dec输入状态添加一个开始状态,dec输出状态结束状态将文字转化为数字将数据转化为pytorch专用数据类型,方便批量化处理第二步简单分为:原创 2021-05-02 11:37:45 · 1075 阅读 · 3 评论 -
pytorch RNN原理实现词性判别以及预测下一个词
卷积神经网络利用卷积核的方式来共享参数,使得参数量大大降低的同时还可以利用空间信息,但是对有先后顺序有关的数据就没多大优势当改变位置信息后还是原来的数据,不会有变换,就比如一句话,我喜欢你,你喜欢我,虽然一样多的词的,但是表达意思就是不一样,所以产生RNN时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。在时间序列问题上,观察值具有时间先后的特征,历史数据可以影响未来数据的表达,因此需要网络具有记忆能力最开始有自回原创 2021-04-28 23:17:46 · 1982 阅读 · 1 评论 -
pytorch_CNN实现文本情感分类
前面一章已经讲了cnn如何做图像识别,相对应的cnn也可以做文本识别,中心思想不变,卷积层以及池化层等不变,但是数据的输入就需要进行对应的调整不熟悉cnn的同学可以看看上篇文章https://blog.csdn.net/qq_39309652/article/details/115978825?spm=1001.2014.3001.5501这里对cnn的框架不再描述,我们主要看看文本数据如何转化为模型所需要的数据我们只需要将数据构建为(N,C,H,W),其中N为批量数据,C为信号的通道,H为宽,W为原创 2021-04-24 22:06:30 · 2173 阅读 · 0 评论 -
NLP_统计词频
import pandas as pdimport jiebatest=pd.DataFrame({'text':['我想用CNN做个情感分析,这个语句是我喜欢的', '哈哈哈,万年刮痧王李白终于加强了', '这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞', '我觉得是个好游戏',原创 2021-04-24 20:41:42 · 784 阅读 · 1 评论 -
NLP之高频词提取
#jieba分词示例def get_content(path): with open(path, 'r', encoding='gbk', errors='ignore') as f: content = '' for l in f: l = l.strip() content += l return contentdef get_TF(words, topK=10): t原创 2020-10-13 13:10:22 · 1155 阅读 · 0 评论 -
NLP之中文分词
中文分词主要分为规则分词、统计分词、混合分词规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法。正向最大匹配法假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词原创 2020-10-12 23:51:43 · 1012 阅读 · 1 评论 -
word2vec词向量建立
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Tue Sep 11 18:46:22 2018@author: lilong""""""由原始文本进行分词后保存到新的文件"""import jiebaimport numpy as npfilePath='data/corpus_1.txt'fileSegWordDonePath ='data/corpusSegDone_1.txt'# 打印中文列表def原创 2020-10-11 23:09:43 · 240 阅读 · 0 评论