爬虫系列
DATA5U
这个作者很懒,什么都没留下…
展开
-
实时采集福利彩票的中奖信息和最新开奖信息-JAVA
获取代理IP出错: 请到 http://www.data5u.com 获取最新的代理IP-API接口,或者修改Memory.useProxyIp=false。项目代码已上传到GITHUB https://github.com/mcj8089/crawl-caipiao.git。可以采集的彩票类型包括:1快乐8,2双色球,3福彩3D,4七乐彩,5大乐透,6排列3,7排列5,8七星彩。本项目介绍了如何使用代理IP和多线程采集公开彩票数据,项目尚不具备使用条件,仅供学习参考。如需要使用代理IP,请到。原创 2022-11-30 14:32:46 · 3120 阅读 · 1 评论 -
使用代理IP发送请求,出现502错误 java.io.IOException: Unable to tunnel through proxy. Proxy returns “HTTP/1.1 502
今天有客户咨询使用代理IP请求一个国外网址(https://read.qxmd.com/),这个网址在国内打开速度比较慢,然后报错了 java.io.IOException: Unable to tunnel through proxy. Proxy returns “HTTP/1.1 502 Bad Gateway”确保目标网站的URL能够正常打开,如果打不开或者长时间不响应(打开很慢),那么这种情况下考虑是网址URL有问题,没有更好的解决方案,只能忽略个别错误。转载 2022-11-24 12:45:41 · 5016 阅读 · 0 评论 -
Java采集数据:使用代理IP采集新闻资讯代码解析
对于数据采集初学者而言,本文介绍如何使用代理IP、多线程采集新闻资讯数据。废话不多说,直接上代码,有些不好理解的地方看注释吧。原创 2022-11-04 14:27:28 · 229 阅读 · 0 评论 -
JAVA 配置动态转发代理IP做数据爬虫采集
这篇文章介绍的是使用动态转发代理IP(也叫隧道代理IP),参考http://www.xiaozhudaili.com/buy/tunnel.html首先效果是很不错的,只需要设置好一次代理IP,然后每次都会自动换一个IP,不需要代码做什么了,看下我的效果:标题下面附上代码:JDK1.8package com.xiaozhudaili.test;import java.io...原创 2020-03-04 17:47:26 · 1071 阅读 · 0 评论 -
为什么数据采集(爬虫)需要用到代理IP
这个问题很简单了,因为你要采集的网址会封禁你的请求IP,导致你的请求无法获取到正确的数据。代理IP起到了中间层的作用,你要采集的网址服务器会认为你的请求IP是代理IP,从而无法实施封禁行为。当然,并不是所有的代理IP都能起到这个作用。代理IP分为高匿名、透明(普通匿名也认为是透明)两种;透明代理IP服务器端看到的是你的真实IP和代理IP,高匿名代理IP服务器端只能看到代理IP。所以说,还必...原创 2020-02-28 10:01:59 · 946 阅读 · 0 评论 -
Python3 使用Scrapy并设置代理IP 爬取数据
本文介绍的代理IP为动态转发代理(http://www.xiaozhudaili.com/buy/tunnel.html),只需要在代码中设置好固定的IP和端口号,以后的每个请求转发代理都会自动更换一个新的IP,不需要在代码中做什么操作。动态转发代理需要有 IP:PORT,用户名,密码。(以下用户名和密码换成自己的)IP:PORT tunnel.xiaozhudaili.com:15...原创 2020-02-26 17:47:15 · 1817 阅读 · 1 评论 -
在Scrapy中使用爬虫动态代理IP
本文介绍如何在Scrapy中使用无忧代理(www.data5u.com)的爬虫动态代理IP,以及如何设置User-Agent.一、创建Scrapy工程scrapy startproject 工程名二、进入工程目录,根据爬虫模板生成爬虫文件scrapy genspider -l # 查看可用模板scrapy genspider -t 模板名 爬虫文件名 允许的域名三、定义爬取关注的数据(...原创 2018-10-26 08:47:22 · 8926 阅读 · 0 评论 -
Java配合爬虫代理IP采集大众点评店铺信息
Java配合爬虫代理IP采集大众点评店铺信息大众点评店铺网址格式如下:http://www.dianping.com/shop/6000000/http://www.dianping.com/shop/6000001/shop后面的ID是连续的,范围是1-1500万,当然有许多店铺是不存在的(404错误),实际的店铺数量在700万左右,这里是用的穷举法,当然也可以进入网页按深度索引。程序...原创 2018-10-14 08:46:25 · 1468 阅读 · 0 评论 -
nodejs怎么使用爬虫HTTP代理IP抓取数据
问题描述:目前我初学爬虫,尽管简单的数据能抓下来,但是看了很多文章,里面有提到一些反爬虫的机制的,这里面都提到了用ip来反爬虫,第二篇文章也提到了用代理池来避免,但是还是不大明白,这些代理ip如果用nodejs要怎么弄?HTTP代理有很多提供商家,这里选择无忧代理的爬虫代理IP,链接 http://www.data5u.com/buy/dynamic.htmlNodeJS整合代码如下:...原创 2018-08-21 09:27:55 · 3709 阅读 · 1 评论 -
JAVA整合无忧代理IP做数据采集的DEMO
JAVA整合无忧代理IP做数据采集的DEMO无忧代理IP,官网是www.data5u.com,提供的爬虫动态代理IP用来做数据采集、大数据抓取还是挺好用的,效果不错,下面是JAVA代码,用到了HtmlUnit+Jsoup这个技术。Maven用户需要在Pom.xml文件中引入相关依赖,如下:<!-- ************htmlunit************* -->...原创 2018-08-17 23:39:52 · 958 阅读 · 0 评论