java给爬虫设置User-Agent（绕过最表面的反爬虫机制）

最新推荐文章于 2024-09-04 08:07:56 发布

Cynicsss

最新推荐文章于 2024-09-04 08:07:56 发布

阅读量3.5k

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/Cynicsss/article/details/79318717

版权

java 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

今天在爬my电影评分时发现访问被控制，但浏览器依旧能访问，查阅后得知因为java程序与浏览器访问不同，一些采取了简单采反爬虫机制的网站可以拒绝这些小爬虫的访问。my电影也用了不少反爬虫策略，比如说票房、评分人数都转换了编码让你不好直接爬取，但我目前不需要那一部分。

在给java程序设置了User-Agent后便能进行爬取（想要爬取的放慢点速度吧。。双方互相都体谅一下）

URL realUrl=new URL(url);
//初始化一个链接到那个url的连接

URLConnection connection=realUrl.openConnection();

//设置User-Agent 加上下面这句后便可进行爬取

connection.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//开始实际的连接
connection.connect();

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Cynicsss

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

反爬虫之User_Agent反爬

柱子先生的博客

07-01

1945

虽然比较初级，还是认真记录一下吧。

只会爬虫不会反爬虫？动图详解利用 User-Agent 进行反爬虫的原理和绕过方法！_user-agent案例

m0_60575487的博客

05-01

232

User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。一些网站常常通过判断 UA 来给不同的操作系统、不同的浏览器发送不同的页面，因此可能造成某些页面无法在某个浏览器中正常显示，但通过伪装 UA 可以绕过检测。

参与评论您还未登录，请先登录后发表或查看评论

【Java】对User-Agent，Referer和Host的简要解释

weixin_74026500的博客

08-31

587

User-Agent（用户代理）是一个HTTP头信息，它用于标识发送请求的客户端（通常是浏览器或其他HTTP客户端）。多个域名可以指向同一个IP地址，通过设置Host头信息，服务器可以根据不同的请求域名来提供不同的网站内容或虚拟主机服务。这些头信息都是可选的，但在一些场景中，服务器可能会根据这些信息来进行相关的处理和判断，例如根据User-Agent适配不同的设备样式、根据Referer统计流量来源或根据Host提供多个网站的服务。对象，可以执行HTTP请求，发送给服务器，并获取服务器的响应。

User-Agent爬虫伪装

最新发布

WuqianZhi_123的博客

09-04

1399

User-Agent 即用户代理，简称“UA”，它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。绝大多数网站都具备一定的反爬能力，禁止网爬虫大量地访问网站，反爬虫。网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。如果是，网站首先对该 IP 进行预警，对其进行重点监控，当发现该 IP 超过规定时间内的访问次数，将在一段时间内禁止其再次访问网站。

为爬虫设置User-Agent

chinacang的专栏

07-16

907

java里面设置User-Agent代码如下 HttpURLConnection uc = (HttpURLConnection) baseURL.openConnection(); uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 3.0.04506...

java 反爬虫_springboot反爬虫组件kk-anti-reptile的使用方法

weixin_32147807的博客

02-21

1101

大家好，我是为广大程序员兄弟操碎了心的小编，每天推荐一个小工具/源码，装满你的收藏夹，每天分享一个小技巧，让你轻松节省开发效率，实现不加班不熬夜不掉头发，是我的目标！今天小编推荐一款反爬虫组件叫kk-anti-reptile，一款可快速接入的反爬虫、接口防盗刷spring boot stater组件。1. 系统要求基于spring-boot开发(spring-boot1.x, spring-boo...

java的http连接中，如何改变User-Agent

weixin_34321977的博客

07-10

2506

为什么80%的码农都做不了架构师？>>> ...

Java实现简易的爬虫

qq_49194786的博客

07-18

714

HTTP编程

Boss直聘Java爬虫.zip

03-06

遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

基于java实现网络爬虫

06-06

8. **反爬机制**：许多网站有反爬虫策略，如验证码、IP限制和User-Agent检测。学习如何模拟浏览器行为，使用代理IP，以及更新User-Agent字符串，可以帮助爬虫绕过这些限制。 9. **异常处理和日志记录**：在编写爬虫...

Nginx反爬虫策略，防止UA抓取网站

09-29

实施这些策略可以有效地拦截大部分爬虫，但需要注意的是，某些爬虫可能会伪装User-Agent，或者通过其他手段绕过这些限制。因此，反爬虫策略应结合其他方法，如限制请求频率、使用验证码、动态内容加载等，形成多层...

java修改user-agent_设置随机 User-Agent

weixin_42368226的博客

02-25

2288

本文转载自以下网站: Scrapy 中设置随机 User-Agent 的方法汇总 https://www.makcyun.top/web_scraping_withpython14.html一行代码搞定 Scrapy 中的随机 UA 设置。摘要：爬虫过程中的反爬措施非常重要，其中设置随机 User-Agent 是一项重要的反爬措施，Scrapy 中设置随机 UA 的方式有很多种，有的复杂有的简单，...

Java爬虫绕过爬虫限制

qq1125633342的博客

05-04

1312

JavaNet可以伪装成浏览器进行访问网站从而可以绕过爬虫限制 HttpConnection conn=(HttpConnection)url.openConnection(); conn.setRequestMethod("get/post"); conn.setRequestProperty(key,value) 如图UserAgent为key 后面的字符串为value ...

java后台解析userAgent

weixin_41225958的博客

06-30

167

实现Java后台解析UserAgent教程 1. 整体流程下面是实现Java后台解析UserAgent的整体流程，可以用表格展示步骤：步骤描述 1 获取User-Agent字符串 2 创建UserAgent解析器 3 解析User-Agent字符串 4 获取解析后的UserAgent信息 ...

【网络爬虫】【java】微博爬虫（五）：防止爬虫被墙的几个技巧（总结篇）

weixin_30343157的博客

10-01

271

爬虫的目的就是大规模地、长时间地获取数据，跟我们正常浏览器获取数据相比，虽然机理相差不大，但总是一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝。关于爬虫长时间爬取数据，可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一：设置下载等待时间/下载频率大规模集中访问对服务器的影响较大，爬虫可以短时间增大...

基于JAVA解决淘宝爬虫限制

AnxiangLemon的博客

11-06

4381

不仅仅限于java前言验证码识别工具分析编码数据演示后记前言以前做过淘客开发，那时候高佣api很少，高佣的办法就是查询商品模拟转链为高佣，但是后来淘宝慢慢禁止了爬虫一直弹验证码，后来我就利用验证码识别成功扛过那段日子，大批淘宝工具商发布高佣接口，验证码识别也就没有用了。本文说的并不是指怎么利用图像去识别的技术，而是怎么突破淘宝的接口限制让爬虫可以获取信息。验证码识别你可以去各大验证码的打码...

521反爬虫解决方法之java篇

热门推荐

路人甲的博客

06-20

1万+

java 爬虫 521 解决方法

BlackBerry Java程序开发如何设置User Agent

杨江的IT分享专栏

02-21

4076

BlackBerry Java程序开发，User Agent是需要手工设置，这样更灵活。首先使用System.getProperty("browser.useragent")获得User Agent数据如下：例如："Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.246 Mobile Safari/534.1+"然后用HttpConnection. se

一行代码搞定Spring Boot反爬虫，防止接口盗刷！

m0_50180963的博客

09-18

267

做电商网站的时候，总有竞争对手利用爬虫来爬你的数据。如果你没有反爬虫措施，网站都可能被爬垮。好在阿里云现在有一些基础服务，可以帮你反爬虫，但是费用太贵。作为程序员，我们还是希望自己动手解决它！我通过一行代码解决掉反爬虫，防止接口被刷后，解决掉了公司多年来对取证并告这些公司的繁琐法律问题。这不，公司给我的 80000 奖金立马就到账了！废话不多说，下面开始正文吧！ kk-anti-reptile 是适用于基于 spring-boot 开发的分布式系统的反爬虫组件。系统要求基于 .

java怎么修改User-Agent绕过防爬虫机制抓取网页呢？

05-17

在Java中修改User-Agent可以通过设置HTTP请求头来实现。具体步骤如下： 1. 创建一个HTTP连接对象，例如使用Java中的URLConnection类或者Apache HttpClient库中的HttpClient类。 2. 通过连接对象获取一个HTTP请求对象，例如使用URLConnection类中的getOutputStream方法或者HttpClient类中的HttpGet/HttpPost类。 3. 在HTTP请求对象中设置User-Agent请求头，例如使用URLConnection类中的setRequestProperty方法或者HttpClient类中的setHeader方法。 4. 发送HTTP请求，例如使用URLConnection类中的getInputStream方法或者HttpClient类中的execute方法。以下是一个使用URLConnection类修改User-Agent的示例代码： ```java import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; public class Main { public static void main(String[] args) throws Exception { String url = "https://www.example.com"; String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"; URLConnection conn = new URL(url).openConnection(); conn.setRequestProperty("User-Agent", userAgent); BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream())); String line; while ((line = reader.readLine()) != null) { System.out.println(line); } reader.close(); } } ``` 注意：修改User-Agent可能会违反网站的使用协议，因此在使用时需要注意合法性问题。