互联网公司一般都有质量审核部门,这些部门专门查找违禁帖子,但网站帖子量成千上万,如何快速的查找到违禁帖子,想到的一个办法就是通过数据模型(分类算法)来解决这个问题,对帖子文本进行分析,建立数据模型,甄别出哪些有可能是违禁的帖子
setwd("~/text_ming")
load("~/text_ming/doc_CN.rda")
library(rJava)
library(Rwordseg)
segmentCN('车试试',returnType = 'tm')
library(tm)
library(SnowballC)
setwd("~/text_ming")
ac <- read.csv('ad_sample_10w.csv',stringsAsFactors = F)
ac <- read.table(file="ad_sample_10w1.txt",colClasses="character",header=T,sep=",")
ac1 <- subset(ac, t2.dt >0)
str(ac1)
names(ac1) <- c('ad_id','spam','content','title','category','dt')
str(ac1)
doc <- ac1$content
#进行中文的分词活动
doc_CN=list()
for(j in 1:length(doc)){
doc[j]=gsub("/","",doc[j])
doc_CN[[j]]=c(segmentCN(doc[j],returnType &