tensorflow实现文本分类

本文档记录了初学者使用Tensorflow进行文本分类的实践过程,包括数据获取、nltk包的安装与使用,以及分类代码的实现。通过nltk对文本数据预处理,并利用简单的三层前馈神经网络进行初步分类,尽管准确率不高,但作为学习的起点有一定帮助。
摘要由CSDN通过智能技术生成

Tensorflow文本分类练习

初学tensorflow,借鉴了很多别人的经验,参考博客对评论分类(感谢博主的一系列好文),本人也尝试着实现了对文本数据的分类。

1、数据

这里借用此博客提供的负类数据正类数据对程序进行验证(再次感谢此博主)。这些数据的每一个样本是对电影的正面或负面的评价。

2、nltk包的安装和使用

对文本数据进行处理,需要借助自然语言处理包NLTK (Natural Language Toolkit) 对每一个样本进行预处理。

(1) 安装 nltk

nltk的安装可采用如下代码:

# pip install nltk 

(2) 下载 nltk data, 这是必要的nltk数据包,实现分词、词性标注、命名实体识别等功能都要用到这个数据包

$ python  # 进入python
>>> import nltk  # 导入nltk
>>> nltk.download()  # 下载 nltk data

注意 nltk.download() 会弹出 NLTK Downloader 下载界面,此过程持续时间较长,请耐心等待。

下载过程中可能会出现某些 package 下载失败的情况,此时可点击 All Packages 标签,进而双击下载失败的 package 可单独下载,一般情况下都能下载成功。如果依然有问题,可移步至 nltk data 进行手动下载。

(3) 测试 nltk 是否安装成功

$ python
from nltk.book import *
* **
text1
…
…
…
text9

若出现以上结果,则恭喜你, nltk 安装成功。

3. 分类代码实现

# 用 one-hot vector 表示每个评论样本
import numpy as np
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from collections import Counter
import tensorflow as tf
import random

# 从文件中获得所包含的所有单词,以及每句话所包含的单词列表
def _ge
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值