使用R语言 4秒对10万行qq群聊天记录进行基本的清洗整理

置顶 Chucky1992

于 2017-02-22 12:15:58 发布

阅读量946

点赞数 1

分类专栏： R语言文章标签： R语言 sapply 数据清理 qq群聊天记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chucky1992/article/details/56483048

版权

R语言专栏收录该内容

2 篇文章 0 订阅

订阅专栏

library(stringr) #需要使用stringr里的str_extract正则抓取字符串

data <- readLines(file.choose(), encoding = "UTF-8") #读文件

data1 <- data[-c(1:8)] #去掉前八行不必要的表头

data2 <- as.data.frame(data1, stringsAsFactors = FALSE)

names(data2) <- "All"

数据很规整，第一行时间人物，第二行说的话，第三行空格，三行一循环

index <- which(sapply("[0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]+:[0-9]+:[0-9]+",regexpr,

data2$All)>0) #正则匹配出时间人物行的索引

talkindex <- index + 1 #下面一行为聊天内容（ps，有些人会使用ctrl+enter输出聊天内容，导致聊天的话可能有两三行，那我只取第一行，这种情况出现的次数只有几百次，可以忽略）

以下的year time name都是对第一行时间人物进行字符串切割，利用for循环要起码几十分钟，sapply只要1秒不到

year <- sapply(data2$All[index],
substring ,1,10)
year <- as.character(year)
time <- sapply(data2$All[index],
substring ,12,19)
time <- as.character(time)
name <- sapply(data2$All[index],
substring ,20,50)
name <- as.character(name)
name <- as.character(sapply(name, str_extract , "([0-9]{6,11})|<(.*?)>")) # 抓取QQ号，唯一ID

newdata <- data.frame(Name = name,
Year = year,
Time = time,
text = data2$All[talkindex],
stringsAsFactors = F)

puredata <- newdata[-which(is.na(newdata$Name) == T),] #最后去除有问题的QQ号，比如系统消息（10000），因为正则匹配它返回的结果是NA

清洗完的数据就可以继而词频统计做词云，时间与发言的热力图

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。