[R语言]文本分类(1)

本文介绍了作者在项目中使用R语言进行文本分类的学习过程。R语言因其强大的统计计算和绘图能力而被选用,通过RStudio作为IDE。文中提到了几个关键的R包,包括RODBC用于连接数据库,tm进行文本挖掘,RwordSeg进行分词,maxent和e1071分别提供了最大熵和SVM分类器。此外,还展示了使用WordCloud包创建词云的示例,并推荐了《R语言实战》一书作为学习资源。
摘要由CSDN通过智能技术生成

因项目需要,结合自身专业知识,故而接触了R语言及一些常用分类器。记录下自己这一个多月的学习历程。


R语言

与起源于贝尔实验室的s语言类似,R也是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护。

R是一门脚本语言,在绘图方面有着非常强的能力,它可以让你集中到你要设计的逻辑上来,而不必太过纠结于代码的实现。它的包实在太丰富,几乎能满足你全部的需要。我使用的IDE是RStudio。然后介绍几个我在文本分类里用到的包:

  • RODBC 连接数据库的包,我主要用它读取数据库里的信息然后保存到本地,制成文本文件。
  • tm 文本挖掘的包,对数据的读入、输出及语料库的提取、转化、过滤等等,最终转化成文档-词条矩阵。
  • RwordSeg 这是一个分词包,需配合rJava包一起使用。分词效果对我而言已够用。
  • maxent 最大熵分类器包,选择最大熵分类器是因为它效率较高。
  • e1071 该包中有svm分类器。具体可看使用者文档。

为了激发兴趣,学习了其中一个很有意思的包:词云包——WordCloud
代码如下:

library(wordcloud)  #加载wordcloud包
library(RColorBrewer) #加载颜色包
png(file="WordCloud.png", bg="white",width = 600, height = 780) #新建一个png的文件作为词云文件。

colors = brewer.pal(8,"Dark2")[-(1:4)]
data = read.csv("wordc
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值