java网络编程_JAVA网络编程模拟浏览器获取html源代码（网络爬虫）

最新推荐文章于 2023-04-10 12:06:20 发布

weixin_39629969

最新推荐文章于 2023-04-10 12:06:20 发布

阅读量319

点赞数

文章标签： java网络编程

本文介绍了网络爬虫的基本工作流程，包括从指定URL抓取HTML页面，使用正则表达式或工具进行内容解析，以及如何存储提取的信息。同时，讲解了URL、URI和URN的概念，并提及了SEO搜索引擎优化，指出网络爬虫在SEO中的作用。通过JAVA代码示例展示了如何下载网页资源，特别提到了处理网站不允许直接访问的情况。

摘要由CSDN通过智能技术生成

网络爬虫基本思路

基本思路：由关键字指定的url把所有相关的html页面全抓下来(html即为字符串)，然后解析html文本(通常是正则表达式或者现成工具包如jsoup)，提取文本信息，然后把文本信息存储起来。

网络爬虫操作步骤

URL(统一资源定位符)

下载资源

分析下载资源(正则表达式)

抽取、清洗、储存

该文章只会操作两步步骤URL和下载html资源。

网络编程小知识

URI:(Universal Resource Identifier)统一资源标记符，用来标记抽象或物理资源的一个紧凑字符串。

URL:(Universal Resource Locator)统一资源定位符，一种定位资源的主要访问机制的字符串，一个标准的URL必须包括：protocal(协议)、host(主机)、port(端口号)、path(路径)、parameter(参数)、anchor(锚)。

URN：(Universal Resource Name)统一资源名称，通过特定命名空间中的唯一名称或ID来标识资源。

URL和URN都是URI，但是URI不一定是URL或者URN。

SEO搜索引擎优化

SEO是搜索引擎优化(Search Engine Optimization)的英文缩写，中文译为“搜索引擎优化”。在了解搜索引擎自然排名机制的基础上，对网站进行内部及外部的调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量，从而达成网站销售及品牌建设的预期目标。

网络爬虫技术是SEO搜索引擎优化的基础(对网络爬虫感兴趣的同学可以深入研究)

JAVA中的JDK已经对URL(资源定位符)封装完毕，使用者只要会用即可。

使用JAVA代码下载网站资源有如下两种情况：

该代码主要是通过URL类的openStream方法来获取网络资源，如果还想了解URL类的信息的同学可以去看看JDK中URL类的源代码。

二、网站不允许外来访问(模仿浏览器使用HTTP协议交流)代码如下

注意事项

JAVA中的控制台储存空间有限，所以有时候HTML源代码会显示不全，但你可以通过IO操作来拷贝到文件中去。

HttpURLConnection类的setRequestProperty方法中的(String key，String value)参数需要到浏览器相应网页中去拷贝。

拷贝如下：

1、进入浏览器相关网页。

2、按住F12进入devtools。

3、拷贝Request包中最后一行数据。

4、冒号前的对应key参数，冒号后的对应value参数。

点击关注私信小编“资源”即可获得

weixin_39629969

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java网络编程_JAVA网络编程模拟浏览器获取html源代码（网络爬虫）

网络爬虫基本思路基本思路：由关键字指定的url把所有相关的html页面全抓下来(html即为字符串)，然后解析html文本(通常是正则表达式或者现成工具包如jsoup)，提取文本信息，然后把文本信息存储起来。网络爬虫操作步骤 URL(统一资源定位符) 下载资源分析下载资源(正则表达式) 抽取、清洗、储存该文章只会操作两步步骤URL和下载html资源。网络编程小知识URI:(Universal R...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。