爬虫
文章平均质量分 78
风风雨雨中寻觅
平平淡淡,简简单单,取长补短,修炼身心
展开
-
Python与R协同完成【中国裁判文书网】文书内容爬取
概述:目标网站:http://wenshu.court.gov.cn/核心:爬取每份文书的DocID请求URL:http://wenshu.court.gov.cn/List/ListContent请求类型:POST传参表格数据参数:Param,Index,Page,Order,Direction,vl5x,number,guid分析过程:1.guid也称为uuid,通用唯一...原创 2018-08-16 10:43:09 · 3599 阅读 · 13 评论 -
XPath表达式
XPath表达式是查询标记语言的方法(是选取XML或HTML中节点node的方法,节点通常是指XML/HTML中元素),XPath通过路径表达式(Path Expression)来选择节点信息,跟文件系统路径一样用/符号来分割路径同一个节点有绝对路径与相对路径两种写法;1.绝对路径必须以/起首,后面紧跟根节点/step/step/...;2.相对路径step/step/.... 当...原创 2019-01-04 11:22:43 · 1099 阅读 · 0 评论 -
URL编码、解码
url标准中只允许一部分ASCII字符,如英文字母、数字字符、部分符号等。其他字符如-*汉字等,应被编码为%+两位的十六进制表示,任何单字节字符都可被编码(多字节是逐字节编码)。保留字符(! $ & ' ( ) * + , ; = : / ? @ # [ ])是否编码1.R语言实现#repeated-已经编码过的url是否被再次编码URLencode(URL,reserved=...原创 2019-01-03 19:52:20 · 267 阅读 · 0 评论 -
AJAX与动态网页
AJAX:异步JavaScript和XML(asynchronous javascript and xml)是一种创建交互式网页应用的网页开发技术,不同浏览器有自己的AJAX实现组件,有ajax技术后就不需要对整个网页进行刷新,局部更新既不占用带宽又可以提高加载速度AJAX技术将请求的网络资源分为HTML纯文档(DOM)和js脚本,浏览器可以通过解析并执行js脚本来更新数据,而通过非浏览器终端...原创 2018-09-20 11:49:53 · 1280 阅读 · 0 评论 -
网络爬虫综述-最全汇总版
2019.1.2更新一.网络爬虫概念网络爬虫(网页蜘蛛,网络机器人或网页追逐者),是按照一定规则自动抓取万维网信息的程序或脚本。网络爬虫由控制节点、爬虫节点和资源库组成,网络爬虫按照实现技术和结构可分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型,在实际的网络爬虫中,通常是这几类爬虫的综合体传统爬虫通常从一个或若干个初始网页的URL开始,在抓取网页的过程中,不断从当前...原创 2018-09-23 17:44:13 · 1473 阅读 · 0 评论 -
R语言完成中国裁判文书网最新爬虫
2018-10-10脚本可用。估计没有人用R来写【中国裁判文书网】的爬虫程序,那我就吃螃蟹啦传送:Python与R协同完成【中国裁判文书网】文书内容爬取,该网站的爬虫分析过程参考我7月初写的博文反爬措施对比:1.JavaScript library更新;2.限制返回条数;3.模拟的浏览器报头信息必须有Cookie;4.文书ID加密,需要解密出明文才能拼接download url;5.翻页时...原创 2018-09-03 10:44:35 · 3271 阅读 · 9 评论 -
浙江法院公开网文书PDF爬取
#批量爬取下载文件-httr包实现异步加载+POST表单提交+cookie登入#异步加载网页大多通过返回json字符串形式来获取数据setwd("F:/...")url_yuan="http://www.zjsfgkw.cn"url_post="http://www.zjsfgkw.cn/document/JudgmentSearch"library("httr")library("...原创 2018-08-14 21:32:41 · 3694 阅读 · 0 评论 -
爬虫之httr包的使用详解
2019-02-24修改,修改常见的参数设置常见的参数设置#HEAD()获取url HEADers,handle用于此请求的句柄(若未提供则主机名+端口号从handle_pool检索并重用.httr在请求相同的scheme/host/port组合时能大大减少连接时间,并确保在对同一主机的多个请求中维护cookie)HEAD(url=NULL,config=list(),...,hand...原创 2018-08-12 20:57:19 · 4626 阅读 · 0 评论 -
爬虫之随机User-Agent及IP代理池
传送:爬虫程序包之RCurl详解暨重定向问题剖析请忽略丑陋的代码排版,我是在本地码好复制上来的,就成了这样library("RCurl")library("XML")library("dplyr")#生成随机User_AgentUser_Agent<-c()User_Agent[1]<-'Mozilla/5.0 (Windows NT 10.0; WOW64) A...原创 2018-08-12 18:18:31 · 1526 阅读 · 0 评论 -
案例-抓取网页图片实现高效存图
浙江法院公开网图片抓取。图片在HTML中的地址比较好获取(定位一张图片,右键-检查元素,右侧弹出的网页结构会自动定位到该图片的地址,可以看到该图片在HTML结构中的名称标签--img,地址标签-src)library("rvest")library("downloader")library("stringr")library("dplyr")url<-"http://www.z...原创 2018-08-07 16:34:55 · 268 阅读 · 0 评论 -
基于RSelenium爬取中国裁判文书网文书数据
传送:RSelenium基本用法总结 Python与R协同完成【中国裁判文书网】文书内容爬取#以执业机构(即律师事务所)作为条件输入system("java -jar F:/.../SeleniumSever/selenium-server-standalone-3.8.1.jar",wait=F)system("java -Dwebdriver.chrome.dr...原创 2018-08-15 22:20:47 · 2205 阅读 · 0 评论 -
案例-中国法律法规doc文档爬取
中企集成:http://www.jincao.com中国法律分类检索:http://www.jincao.com/t1.htmsetwd("F:/...")library("RCurl")library("XML")library("stringr")library("dplyr")#library("plyr")library("data.table&qu原创 2018-08-14 21:33:03 · 1150 阅读 · 2 评论 -
RSelenium基本用法总结
有些数据在script标签里面的js动态脚本中,普通请求器如RCurl和httr没有权限办到(少了中介浏览器引擎来渲染这些HTML源文档。因此请求到的HTML文档是静态的,不包括HTML文档中那些重要的嵌套在script标签中的数据)RSelenium和Rwebdriver都是通过调用Selenium Sever来模拟浏览器环境,Selenium是一个用于网页测试的Java开源软件,可以模拟浏...原创 2018-08-02 13:56:45 · 4318 阅读 · 5 评论 -
案例-浙江省律师综合管理平台信息爬取
爬取浙江省律师综合管理平台上的律师事务所+律师基本信息,截止2018-08-06依然有效,直接运行即可library("RCurl")library("XML")library("dplyr")#律师事务所信息爬取request_url<-"http://lsgl.zjsft.gov.cn/zjlawyermanager/view/lawyers/LawyerOfficePa...原创 2018-08-16 10:44:05 · 2317 阅读 · 0 评论 -
R语言中处理XML/HTML函数详解-爬虫相关
本篇介绍XML 程序包中的函数,因函数较多,侧重于爬虫相关的函数1.xmlTreeParse(),htmlTreeParse() #解析XML或HTML文件,或者包含XML/HTML内容的字符串,并生成标准的XML/HTML树形R结构,当内容已知为HTML时,使用后者(XMLDocumentContent:生成对象类型)2.xmlParse(),htmlParse() #整理网页树结构,与...原创 2018-08-06 20:00:33 · 3928 阅读 · 0 评论 -
爬虫程序包之RCurl详解暨重定向问题剖析
RCurl程序包提供R到libcurl库的接口,从而实现HTTP的一些功能,如从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等Curl:利用url语法在命令行方式下工作的开源文件传输工具,其背后的库即libcurlRCurl三大函数:getURL(),getForm(),postForm()#判断url是否存在 url.exists(url="www...原创 2018-08-06 15:42:02 · 882 阅读 · 0 评论 -
基于JavaScript爬取法律文书案由信息
传送:R语言中使用JavaScript中国裁判文书网:http://wenshu.court.gov.cn/Assets/js/Lawyee.CPWSW.DictData.jslibrary("RCurl")library("js")library("dplyr")txt<-getURL('http://wenshu.court.gov.cn/Assets/js/Lawyee...原创 2018-08-16 10:43:46 · 564 阅读 · 0 评论 -
HTTPS加密原理
1.HTTPS对称加密服务器每次发送真实数据前,会先生成一把密钥传输(以明文方式传输密钥容易被劫持)给客户端,服务器给客户端发送的真实数据会先用这把密钥进行加密,客户端收到加密数据后再用密钥进行解密(客户端给服务器发送数据同理)2.HTTPS非对称加密客户端和服务器都有两把密钥,一把公钥一把私钥(公钥加密的数据只有私钥才能解密,私钥加密的数据只有公钥才能解密),服务器在给客户端发送...原创 2019-01-02 16:16:35 · 6442 阅读 · 4 评论