用R实现文本挖掘

最新推荐文章于 2024-05-13 13:46:21 发布

小酥饼maomao

最新推荐文章于 2024-05-13 13:46:21 发布

阅读量3.2k

点赞数

本文链接：https://blog.csdn.net/u011454283/article/details/50633806

版权

互联网公司一般都有质量审核部门，这些部门专门查找违禁帖子，但网站帖子量成千上万，如何快速的查找到违禁帖子，想到的一个办法就是通过数据模型（分类算法）来解决这个问题，对帖子文本进行分析，建立数据模型，甄别出哪些有可能是违禁的帖子

setwd("~/text_ming")
load("~/text_ming/doc_CN.rda")

library(rJava)
library(Rwordseg)
segmentCN('车试试',returnType = 'tm')
library(tm)
library(SnowballC)
setwd("~/text_ming")


ac <- read.csv('ad_sample_10w.csv',stringsAsFactors = F)
ac <- read.table(file="ad_sample_10w1.txt",colClasses="character",header=T,sep=",")

ac1 <- subset(ac, t2.dt >0)
str(ac1)
names(ac1) <- c('ad_id','spam','content','title','category','dt')
str(ac1)

doc <- ac1$content
#进行中文的分词活动

doc_CN=list()
for(j in 1:length(doc)){
  doc[j]=gsub("/","",doc[j])
  doc_CN[[j]]=c(segmentCN(doc[j],returnType &

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小酥饼maomao

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
用R实现文本挖掘

互联网公司一般都有质量审核部门，这些部门专门查找违禁帖子，但网站帖子量成千上万，如何快速的查找到违禁帖子，想到的一个办法就是通过数据模型（分类算法）来解决这个问题，对帖子文本进行分析，建立数据模型，甄别出哪些有可能是违禁的帖子setwd("~/text_ming")load("~/text_ming/doc_CN.rda")library(rJava)library(Rwordseg)
复制链接

扫一扫