用R实现文本挖掘

互联网公司一般都有质量审核部门,这些部门专门查找违禁帖子,但网站帖子量成千上万,如何快速的查找到违禁帖子,想到的一个办法就是通过数据模型(分类算法)来解决这个问题,对帖子文本进行分析,建立数据模型,甄别出哪些有可能是违禁的帖子
setwd("~/text_ming")
load("~/text_ming/doc_CN.rda")

library(rJava)
library(Rwordseg)
segmentCN('车试试',returnType = 'tm')
library(tm)
library(SnowballC)
setwd("~/text_ming")


ac <- read.csv('ad_sample_10w.csv',stringsAsFactors = F)
ac <- read.table(file="ad_sample_10w1.txt",colClasses="character",header=T,sep=",")

ac1 <- subset(ac, t2.dt >0)
str(ac1)
names(ac1) <- c('ad_id','spam','content','title','category','dt')
str(ac1)

doc <- ac1$content
#进行中文的分词活动

doc_CN=list()
for(j in 1:length(doc)){
  doc[j]=gsub("/","",doc[j])
  doc_CN[[j]]=c(segmentCN(doc[j],returnType &
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值