初次使用Java爬取网站

最新推荐文章于 2024-07-13 02:36:16 发布

qq_41255348

最新推荐文章于 2024-07-13 02:36:16 发布

阅读量349

点赞数

分类专栏： Java 文章标签： java简单爬取

本文链接：https://blog.csdn.net/qq_41255348/article/details/80465022

版权

Java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.首先，先准备Jsoup.jar包

2.在你的项目里面添加Jsoup.jar的包。添加过程在你的项目找到Build Path->Configure Build Path->Libraries->Add External JARS即可。

3.接下来就是运用这个包里面的类。

4.如果只是从网站里面爬取东西即运用里面的这些import

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import java.io.IOException;

public static void main(String[] args)throws IOException

在主函数加上throws后面这个以防爬取不了。

接下来先声明一个String类型用来存取网站链接

例如：String url = "http://www.en8848.com.cn/CET6/tl/mw100/132744.html";

接下来声明Document对象接收爬取网站信息

例如：Document document = Jsoup.connect(url).userAgent("").get();//userAgent()以浏览器模式进行访问改网站

String element = document.text();//获取网站信息

element这个即包含该页网站的所有信息用String类型存储

这个仅仅是我个人的见解，我现在也不太懂怎么对网站的主体爬取，上面的方法仅仅把网页的所有东西爬下来而已

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_41255348

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Java 爬取网页

weixin_45743799的博客

04-18

589

我们使用 net.URL 类的 URL() 构造函数来抓取网页代码如下 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.InputStreamReader; import java.net.URL; public class Main...

java爬取网页的爬虫（html文件）

java_fight的博客

05-28

4530

1.首先创建一个maven项目，相信大家都不是问题了 2.配置maven的依赖在创建好的maven项目里的pom文件中添加httpClient依赖在maven共享库中下载此处maven共享库链接将此处代码贴到maven项目的pom.xml中到这里一个简陋的小爬虫就算完成了一起看看效果吧，让我们run 一把结果显示的日志看到请求为Get请求，状态码200 ...

参与评论您还未登录，请先登录后发表或查看评论

java爬取网页内容简单例子

最新发布

weixin_37059043的博客

07-13

Java爬取知网数据解决验证码问题在进行数据爬取的过程中，我们经常会遇到验证码的问题。验证码是为了防止爬虫程序对网站进行恶意访问而设计的。如果我们想要爬取知网上的数据，就必须要解决验证码问题。本文将介绍如何使用Java编程语言爬取知网数据并解决验证码问题。解决验证码问题的方式在爬取知网数据时，我们通常会遇到下面几种验...

用Java爬取网页

zzl819748566的博客

08-17

821

之前用python爬取网页了,现在我们在用Java来爬取网页,两者可以对比一下,个人感觉python语言简洁清新,比较好用.public static void main(String[] args){ NodeList rt= getNodeList("http://www.ip138.com:8080/search.asp"); System.out.println(r

JAVA爬取网页内容

qq_43425323的博客

11-20

238

创建maven工程 pom依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc...

java爬取亚马逊的Iphone信息

07-12

在本项目中，我们主要探讨如何使用Java编程语言来实现一个网络爬虫，目标是抓取亚马逊网站上关于iPhone的相关信息。爬虫是自动化获取网页数据的重要工具，它可以帮助我们批量收集、处理和分析网络上的大量信息。在这...

java爬取视频，都是精髓！

m0_57699613的博客

07-12

918

基于 Servlet 容器的 Web MVC 身为 Java 开发者，对于 Spring 框架并不陌生。它起源于 2002 年、Rod Johnson 著作《Expert One-on-One J2EE Design and Development》中的 Interface 21 框架，到了 2004 年，推出 Spring 1.0，从 XML 到 3.0 之后，支持 JavaConfig 设定；进一步，在 2014 年时，除了 Spring 4.0 之外，首次发表了Spring Boot，最大的亮点是采用

java获取基金实时数据_JAVA爬取天天基金网数据

weixin_42536058的博客

02-25

1781

爬取基金历史记录代码：1。首先要自己定义几个参数：基金编码，页数，每页显示条数开始时间结束时间等(我这直接写的静态方法使用的大家可以改成Test方法自行进行测试)/*** httClient 请求 GET* 获取基金网数据1*/public staticJSONArray testDepartmentList1(String code){Integer pageIndex= 1;Integer...

Java爬虫实战：轻松爬取CSDN个人博客文章.zip

04-29

Java爬虫实战：轻松爬取CSDN个人博客文章是一个基于Java编程语言的项目，旨在帮助用户自动化地从CSDN（China Software Developer Network）网站抓取个人博客文章并保存到本地。这个项目对于那些想要备份自己或者他人...

JAVA使用cdp4j爬取动态渲染网页的数据

longxianhua的博客

11-13

5154

JAVA使用cdp4j爬取动态渲染网页的数据欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导...

详解Java两种方式简单实现：爬取网页并且保存

08-31

本篇文章主要介绍了Java两种方式简单实现：爬取网页并且保存，主要用UrlConnection、HttpClient爬取实现，具有一定的参考价值，感兴趣的小伙伴们可以参考一下。

java实现爬取指定网站的数据源码

01-13

Java实现定向爬取数据的源码，有详细的说明文档，比较简单，思路清晰，比较适合初学者和中级的人员参考。

java爬取网页用到的一些jar

08-16

java爬取网页用到的一些jar 具体的使用方法看链接

最新java模拟登陆QQ空间【2017-12-22】有效

12-22

java 爬取网页代码

11-17

246

package text; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.nio.charset.MalformedInputException; public class GetHtml { /**java项目源www.fhadm.

Java 使用WebMagic爬取网页（简单示例）

深夜无眠的博客

05-20

1462

WebMagic是一个基于Java的开源网络爬虫框架，它提供了很多简单易用的API接口，可以帮助使用者快速构建出高效、可扩展的网络爬虫程序，WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成，核心代码非常简单，主要是将这些组件结合并完成多线程的任务WebMagic的结构分为。

java-实现网页代码的爬取

toomemetoo的博客

01-20

374

爬取一个网页的内容，当然相对路径以及样式都复制不过来，只能复制这个文件的内容。先将所有异常使用Throws抛出的话 import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.net.URL; public class Src {

Java 爬取网页图片并下载

文轩

07-09

991

源码; package a; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.*; import java.net.MalformedURLException; import java.net.URL; import ja

Heritrix在Eclipse中的配置与定制爬取教程

文章还提到，Heritrix的官方支持主要集中在Linux系统，但在Windows环境下，作者提供了详细的配置指导，帮助新手用户克服初次使用的困扰。通过本文，读者不仅能够掌握基础的Heritrix使用，还能学会如何根据需求定制化...