knitr
::
opts_chunk
$
set
(
echo
=
TRUE
,
message
=
FALSE
,
warning
=
FA
LSE
,
cache
=
TRUE
)
library
(
quanteda
)
library
(
tm
)
# Set a parent folder for the main directory
pfolder
"/Users/andrewjohnson/Documents/data_science_pro
jects/JHU_Coursera_Capstone"
dfolder
paste
(
pfolder
,
"/data"
,
sep
=
""
)
setwd
(
pfolder
)
1
项
目概况
该项目试图建立一个预测文本模型,可以用来预测计算机或移动设备的用户输入的下一个单词。该项目将使用由英语语
料库开发的退避模型,该模型具有由网络爬虫收集的超过两百万行文本的样本。
自然语言处理中的常见步骤是:
1.
获取和清理数据
o
示例文本
o
预处理文本(删除不符合您的目的的数据,如标点,亵渎等)
oTokenization
(识别要分析的单词和单词的组合)
2.
探索性数据分析
o
创建一个频率矩阵(根据目标,可以是文档或文档项)
o
显示有用的观察
3.
模型开发
o
开发初始模型(可以是预测,分析或其他)
o
测试模型(在样品中和在样品准确度外)
o
改进模型(根据使用情况应该更快还是更准确)?
2
数据
这些数据是从
https://d396qusza40orc.cloudfront.net/dsscapstone/dataset/Coursera-SwiftKey.zip
与其他语言语料库下
载的英文文本语料库。语料库是由网络爬虫从公开可用的来源收集的。有关数据的更多解释,请访问
https://web-beta.
archive.org/web/20160930083655/http://www.corpora.heliohost.org/aboutcorpus.html
。
2.1
下载并加载数据
#
用于将数据下载并存储到父文件夹中的
zip
文件的代码
file_URL
"https://d396qusza40orc.cloudfront.net/dsscapst
one/dataset/Coursera-SwiftKey.zip"
dest
"./corpus.zip"