基于JavaScript爬取法律文书案由信息

18 篇文章 1 订阅
4 篇文章 0 订阅

传送:R语言中使用JavaScript

中国裁判文书网:http://wenshu.court.gov.cn/Assets/js/Lawyee.CPWSW.DictData.js

library("RCurl")
library("js")
library("dplyr")
txt<-getURL('http://wenshu.court.gov.cn/Assets/js/Lawyee.CPWSW.DictData.js',.encoding='UTF-8')
txt<-uglify_reformat(txt, beautify = TRUE) #格式化
txt<-esprima_tokenize(txt,range=FALSE,loc=FALSE,comment=FALSE) 

txt<-txt[which(txt$type != 'Punctuator'),] %>% .[4:nrow(.),] #去除标点符号+无用的行
txt<-txt[which(txt$value != 'key'),] %>% .[which(.$value != '"1"' & .$value != '"2"' & .$value != '"3"' & .$value != '"4"'),]	#去除无用的key标签

#更新txt的rownames
rownames(txt)<-order(as.numeric(rownames(txt))) #order返回索引

case_info<-data.frame(id=txt$value[which(txt$value=='id')+1],parentId=txt$value[which(txt$value=='parentId')+1],name=txt$value[which(txt$value=='name')+1],stringsAsFactors = F)
case_info$id<-gsub("\"","",case_info$id)
case_info$parentId<-gsub("\"","",case_info$parentId)
case_info$name<-gsub("\"","",case_info$name)

爬取结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值