r语言quantmond_R语言文本挖掘预测模型案例分析报告附代码数据

最新推荐文章于 2022-09-16 18:10:33 发布

weixin_39772651

最新推荐文章于 2022-09-16 18:10:33 发布

阅读量578

点赞数

文章标签： r语言quantmond

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39772651/article/details/111804565

版权

此项目使用R语言的quanteda和tm库建立预测文本模型，预测计算机或移动设备用户输入的下一个单词。通过获取和清理数据、探索性数据分析以及模型开发，利用从公开源收集的超过两百万行英文文本语料库进行训练。

摘要由CSDN通过智能技术生成

knitr

::

opts_chunk

$

set

(

echo

=

TRUE

,

message

=

FALSE

,

warning

=

FA

LSE

,

cache

=

TRUE

)

library

(

quanteda

)

library

(

tm

)

# Set a parent folder for the main directory

pfolder

"/Users/andrewjohnson/Documents/data_science_pro

jects/JHU_Coursera_Capstone"

dfolder

paste

(

pfolder

,

"/data"

,

sep

=

""

)

setwd

(

pfolder

)

1

项

目概况

该项目试图建立一个预测文本模型，可以用来预测计算机或移动设备的用户输入的下一个单词。该项目将使用由英语语

料库开发的退避模型，该模型具有由网络爬虫收集的超过两百万行文本的样本。

自然语言处理中的常见步骤是：

1.

获取和清理数据

o

示例文本

o

预处理文本(删除不符合您的目的的数据，如标点，亵渎等)

oTokenization

(识别要分析的单词和单词的组合)

2.

探索性数据分析

o

创建一个频率矩阵(根据目标，可以是文档或文档项)

o

显示有用的观察

3.

模型开发

o

开发初始模型(可以是预测，分析或其他)

o

测试模型(在样品中和在样品准确度外)

o

改进模型(根据使用情况应该更快还是更准确)？

2

数据

这些数据是从

https://d396qusza40orc.cloudfront.net/dsscapstone/dataset/Coursera-SwiftKey.zip

与其他语言语料库下

载的英文文本语料库。语料库是由网络爬虫从公开可用的来源收集的。有关数据的更多解释，请访问

https://web-beta.

archive.org/web/20160930083655/http://www.corpora.heliohost.org/aboutcorpus.html

。

2.1

下载并加载数据

#

用于将数据下载并存储到父文件夹中的

zip

文件的代码

file_URL

"https://d396qusza40orc.cloudfront.net/dsscapst

one/dataset/Coursera-SwiftKey.zip"

dest

"./corpus.zip"

weixin_39772651

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。