用R读取PDF并进行数据挖掘

最新推荐文章于 2023-10-27 10:44:07 发布

cuiao6729

最新推荐文章于 2023-10-27 10:44:07 发布

阅读量132

点赞数

文章标签： javascript 前端 java ViewUI

用R读取PDF并进行数据挖掘，例子如下：

# here is a pdf for mining

url

dest

download.file(url, dest, mode = "wb")

# set path to pdftotxt.exe and convert pdf to text

exe

system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)

# get txt-file name and open it

filetxt

shell.exec(filetxt); shell.exec(filetxt) # strangely the first try always throws an error..

# do something with it, i.e. a simple word cloud

library(tm)

library(wordcloud)

library(Rstem)

txt

txt

txt

corpus

corpus

tdm

m

d

# Stem words

d$stem

# and put words to column, otherwise they would be lost when aggregating

d$word

# remove web address (very long string):

d

# aggregate freqeuncy by word stem and

# keep first words..

agg_freq

agg_word

d

# sort by frequency

d

# print wordcloud:

wordcloud(d$word, d$freq)

# remove files

file.remove(dir(tempdir(), full.name=T)) # remove files

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/301743/viewspace-745512/，如需转载，请注明出处，否则将追究法律责任。

上一篇： Java又爆致命漏洞

下一篇： Eclipse 4.2 SR1版悄悄发布

请登录后发表评论登录

全部评论

<%=items[i].createtime%>

<%=items[i].content%>

<%if(items[i].items.items.length) { %>

<%for(var j=0;j

<%=items[i].items.items[j].createtime%> 回复

<%=items[i].items.items[j].username%> 回复 <%=items[i].items.items[j].tousername%>： <%=items[i].items.items[j].content%>

<%}%> <%if(items[i].items.total > 5) { %>

还有<%=items[i].items.total-5%>条评论 ) data-count=1 data-flag=true>点击查看

<%}%>

<%}%>

<%}%>

jieforest

注册时间：2008-04-23

博文量
443
访问量

520678

最新文章

北京盛拓优讯信息技术有限公司. 版权所有京ICP备09055130号-4 北京市公安局海淀分局网监中心备案编号：11010802021510

广播电视节目制作经营许可证(京) 字第1234号中国互联网协会会员

转载于:http://blog.itpub.net/301743/viewspace-745512/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用R读取PDF并进行数据挖掘

用R读取PDF并进行数据挖掘，例子如下： # here is a pdf for miningurl dest download.file(url, dest, mode = "wb")# ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。