RNN(电影评论情感分析: RNN循环网络原理及自然语言处 理NLP应用)

数据源:imdb.com

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

预处理

分词

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

词的数字化表示方法与词嵌入

在这里插入图片描述

在这里插入图片描述

更合理的方案

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
http://word2vec.googlecode.com/svn/trunk/

https://nlp.stanford.edu/projects/glove/

https://nlp.stanford.edu/projects/glove/

在这里插入图片描述

IMDB数据集获取与处理(非TF集成模式)

在这里插入图片描述
在这里插入图片描述

数据读取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

import numpy as np
import tensorflow as tf
import os
import re

def remove_tags(text):
    re_tag = re.compile(r'<[^>]>')
    return re_tag.sub('',text)
    
def read_files(filetype):
    path = './aclImdb/'
    file_list = []
    
    #读取正面评价文件的路径,存到file_list列表里
    positive_path = path + filetype + '/pos/'
    for f in os.listdir(positive_path):
        file_list += [positive_path + f]
    pos_files_num = len(file_list)
    
    #读取负面评价的文件路径,存到file_list里面
    negative_path = path + filetype + '/neg/'
    for f in os.listdir(negative_path):
        file_list += [negative_path + f]
    neg_files_num = len(file_list) - pos_files_num
    
    print('read',filetype,'files:',len(file_list))
    print(pos_files_num,'POS FILES IN',filetype,'files')
    print(neg_files_num,'neg files in',filetype,'files')
    # 用one-hot编码标签
    all_labels = ([[1,0]]*pos_files_num + [[0,1]] * neg_files_num)

    #得到所有文本
    all_texts = []
    for fi in file_list:
        with open(fi,encoding='utf-8') as file_input:
            #正则表达式清楚’br /'这类标签
            all_texts += [remove_tags(" ".join(file_input.readlines()))]
    return all_labels,all_texts

#得到 训练 与 测试 用的 标签和文本
train_labels,train_texts = read_files("train")
test_labels,test_tests = read_files("test")

#查看数据、标签
print("训练数据")
print("正面评价:")
print(train_texts[0])
print(train_labels[0])
print("负面评价:")
print(train_texts[12500])
print(train_labels[12500])
print('=='*50)
print("测试数据")
print("正面评价:")
print(test_tests[0])
print(test_labels[0])
print("负面数据:")
print(test_tests[12500])
print(test_labels[12500])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Alexander plus

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值