网络爬虫的初步使用

最新推荐文章于 2023-06-13 16:50:59 发布

心之所向...

最新推荐文章于 2023-06-13 16:50:59 发布

阅读量534

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/frmnzr/article/details/119819849

版权

本文介绍了Java爬虫的基础步骤，包括通过URL下载网页资源，使用正则表达式分析数据，进行数据抽取和清洗，最后将数据存储。示例中分别展示了对默认允许和不允许爬取的网站的处理方式，使用了HttpURLConnection设置User-Agent来模拟浏览器请求。

摘要由CSDN通过智能技术生成

完整步骤如下：

1.提供一个URL

2.下载资源

3.分析数据（可以利用正则表达式）

4.数据抽取

5.数据清洗

6.存储

以下示例就只操作前两步。

简单示例（该网站默认允许爬取）：提供一个URL，下载资源

public static void main(String[] args) throws IOException {
    URL url = new URL("https://www.jd.com");
    InputStream is = url.openStream();
    BufferedReader reader = new BufferedReader(new InputStreamReader(is));
    String msg = null;
    while((msg = reader.readLine())!=null){
        System.out.println(msg);
    }
}

简单示例（该网站默认不允许爬取，可以浏览器模拟请求访问进行爬取）：提供一个URL 下载资源

public static void main(String[] args) throws IOException {
    URL url = new URL("https://www.dianping.com");
    HttpURLConnection connection = (HttpURLConnection) url.openConnection();
    connection.setRequestMethod("GET");
    connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36");
    InputStream is = connection.getInputStream();
    BufferedReader reader = new BufferedReader(new InputStreamReader(is));
    String msg = null;
    while((msg = reader.readLine())!=null){
        System.out.println(msg);
    }
}

关注公众号，可以免费获取毕业设计项目、各种免费软件、资料，笔记哦。

心之所向...

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

心之所向... CSDN认证博客专家 CSDN认证企业博客

码龄6年

125: 原创

6万+: 周排名

34万+: 总排名

17万+: 访问

: 等级

2102: 积分

12: 粉丝

61: 获赞

32: 评论

174: 收藏

私信

关注

热门文章

分类专栏

javase 33篇
IO流 3篇
集合 3篇
并发编程 2篇
JVM虚拟机 2篇
javaweb 6篇
数据库
spring 1篇
springMVC 1篇
mybatis 10篇
JPA 4篇
POI 3篇
shiro权限框架 6篇
springboot 1篇
springcloud 4篇
解决错误 11篇
easyUI 2篇
vue 7篇
数据结构与算法 3篇
项目部分实现 8篇
架构模式 1篇

最新评论

yarn : 无法加载文件 D:\Software\dev\nodejs\node_global\yarn.ps1,因为此系统上禁止运行脚本。
CSDN-Ada助手: Hi，博主，很抱歉听到你遇到了这样的问题。但是，我们不妨从中发掘出一点点的灵感，写一篇博客来帮助其他人解决这个问题。我的建议是写一篇关于如何解决在Windows系统上禁止运行脚本的问题的博客，同时介绍一些有关yarn的知识和技巧，帮助更多的开发者更好地使用yarn。期待你的精彩分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
图书管理系统
l3212094351: 完整代码怎么获取？
解决springboot中properties配置文件乱码问题
职业叫兽: 干货满满
如何在注解参数中写注解类型，@WebServlet注解中的initParams为例
Nekoniʸ(ฅ>ω<*ฅ): 这样的param可以存数值吗？
javase之File类
大家一起学编程（python）: 大佬666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

心之所向... 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。