机器学习之第一部分:词袋模型

 

第一部分:词袋模型
 
什么是NLP?
 
NLP(自然语言处理)是一组接近文本的技术问题。这个页面将帮助您开始使用加载和清扫IMDB影评,然后应用一个简单的袋子的话模型得到惊人的准确的预测评估是否赞成或反对。
 
在你开始之前
本教程使用的Python语言。如果你还没有使用Python之前,我们建议在前往泰坦尼克号竞争Python教程把你的脚弄湿(查看随机森林介绍当你)。如果您已经熟悉Python和基本的NLP技术,您可能想要跳到第2部分。
 
这部分的教程不是依赖于平台。在本教程中我们将使用不同的Python模块用于文本处理,深度学习,随机森林,和其他应用程序。详细信息,请参阅设置您的系统页面。
 
确实有很多好的教程,整本书关于NLP和Python中的文本处理。本教程是绝不要详尽,只是为了帮助你开始电影评论。
 
Code
第1部分的教程代码住在这里。
 
 
读取数据
必要的文件可以从数据下载页面。第一个文件,你需要的是unlabeledTrainData.tsv,其中包含25000 IMDB影评,每一个都有积极或消极情绪标签。
 
接下来,读取的文件到Python一样。要做到这一点,我们可以使用pandas的package,介绍了《泰坦尼克号》教程,它提供的read_csv函数轻松地读取和写入数据文件。如果你还没有使用过pandas,您可能需要安装它。
 
# Import the pandas package, then use the "read_csv" function to read
# the labeled training data
import pandas as pd
train = pd.read_csv("labeledTrainData.tsv", header=0, \
delimiter="\t", quoting=3)
 
这里,“header= 0”表示该文件的第一行包含列名称,“delimiter=\t”表示字段由\t分割, quoting=3告诉Python忽略双引号,否则你可能试图读取文件会遇到错误。
 
我们可以确保我们读25000行3列如下:
>>> train.shape
(25000, 3)

>>> train.columns.values
array([id, sentiment, review], dtype=object)
三列被称为“id”、“sentiment”,和“review。“现在你已经阅读训练集,看看一些评论:
print train["review"][0]
 
提醒一下,这将显示你第一个电影评论专栏名为“review。“你应该看到一个评论,开始是这样的:
"With all this stuff going down at the moment with MJ i've started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ's feeling towards the press and also the obvious message of drugs are bad m'kay. <br/><br/>..."
 
有HTML标签如“< br / >”、缩写词、标点符号——所有常见问题从网上当处理文本。花点时间浏览其他评论在训练集时,下一节将处理如何整理机器学习的文本。
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值