r语言quantmond_R语言文本挖掘预测模型案例分析报告 附代码数据

此项目使用R语言的quanteda和tm库建立预测文本模型,预测计算机或移动设备用户输入的下一个单词。通过获取和清理数据、探索性数据分析以及模型开发,利用从公开源收集的超过两百万行英文文本语料库进行训练。
摘要由CSDN通过智能技术生成

knitr

::

opts_chunk

$

set

(

echo

=

TRUE

,

message

=

FALSE

,

warning

=

FA

LSE

,

cache

=

TRUE

)

library

(

quanteda

)

library

(

tm

)

# Set a parent folder for the main directory

pfolder

"/Users/andrewjohnson/Documents/data_science_pro

jects/JHU_Coursera_Capstone"

dfolder

paste

(

pfolder

,

"/data"

,

sep

=

""

)

setwd

(

pfolder

)

1

目概况

该项目试图建立一个预测文本模型,可以用来预测计算机或移动设备的用户输入的下一个单词。该项目将使用由英语语

料库开发的退避模型,该模型具有由网络爬虫收集的超过两百万行文本的样本。

自然语言处理中的常见步骤是:

1.

获取和清理数据

o

示例文本

o

预处理文本(删除不符合您的目的的数据,如标点,亵渎等)

oTokenization

(识别要分析的单词和单词的组合)

2.

探索性数据分析

o

创建一个频率矩阵(根据目标,可以是文档或文档项)

o

显示有用的观察

3.

模型开发

o

开发初始模型(可以是预测,分析或其他)

o

测试模型(在样品中和在样品准确度外)

o

改进模型(根据使用情况应该更快还是更准确)?

2

数据

这些数据是从

https://d396qusza40orc.cloudfront.net/dsscapstone/dataset/Coursera-SwiftKey.zip

与其他语言语料库下

载的英文文本语料库。语料库是由网络爬虫从公开可用的来源收集的。有关数据的更多解释,请访问

https://web-beta.

archive.org/web/20160930083655/http://www.corpora.heliohost.org/aboutcorpus.html

2.1

下载并加载数据

#

用于将数据下载并存储到父文件夹中的

zip

文件的代码

file_URL

"https://d396qusza40orc.cloudfront.net/dsscapst

one/dataset/Coursera-SwiftKey.zip"

dest

"./corpus.zip"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值