爬虫程序 java_java网络爬虫程序怎么运行

最新推荐文章于 2024-07-12 09:13:43 发布

愚夫股份

最新推荐文章于 2024-07-12 09:13:43 发布

阅读量161

点赞数

文章标签：爬虫程序 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36184985/article/details/114422892

版权

展开全部

用HTTPclient或者htmlunit工具包，他们都可以做爬虫获取网页的工具。比如htmlunit，楼主可以这样获取网页源32313133353236313431303231363533e58685e5aeb931333361326231码：import com.gargoylesoftware.htmlunit.WebClient;

import com.gargoylesoftware.htmlunit.html.HtmlPage;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.html.HtmlDivision;

import com.gargoylesoftware.htmlunit.html.HtmlAnchor;

import com.gargoylesoftware.htmlunit.*;

import com.gargoylesoftware.htmlunit.WebClientOptions;

import com.gargoylesoftware.htmlunit.html.HtmlInput;

import com.gargoylesoftware.htmlunit.html.HtmlBody;

import java.util.List;

public class helloHtmlUnit{

public static void main(String[] args) throws Exception{

String str;

//创建一个webclient

WebClient webClient = new WebClient();

//htmlunit 对css和javascript的支持不好，所以请关闭之

webClient.getOptions().setJavaScriptEnabled(false);

webClient.getOptions().setCssEnabled(false);

//获取页面

HtmlPage page = webClient.getPage("http://www.baidu.com/");

//获取页面的TITLE

str = page.getTitleText();

System.out.println(str);

//获取页面的XML代码

str = page.asXml();

System.out.println(str);

//获取页面的文本

str = page.asText();

System.out.println(str);

//关闭webclient

webClient.closeAllWindows();

}

}

如果用HTTPclient，楼主可以百度它的教程，有本书叫做《自己动手写网络爬虫》，里面是以java语言为基础讲的，作为一个爬虫入门者可以去看看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫程序 java_java网络爬虫程序怎么运行

展开全部用HTTPclient或者htmlunit工具包，他们都可以做爬虫获取网页的工具。比如htmlunit，楼主可以这样获取网页源32313133353236313431303231363533e58685e5aeb931333361326231码：importcom.gargoylesoftware.htmlunit.WebClient;importcom.gargoylesoftwar...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。