Java获取网页内容

最新推荐文章于 2022-09-24 09:56:14 发布

geekun

最新推荐文章于 2022-09-24 09:56:14 发布

阅读量524

点赞数

分类专栏： Java 文章标签： java 爬虫 apache

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/geekun/article/details/51325528

版权

Java 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

以前都是用python写爬虫，这次使用java。代码虽然多了点，不过还是静态类型语言代码提示舒心点。获取网页源代码算是爬虫的基本入门吧。

我们采用Apache的commons-httpclient包进行抓取。需要用到三个包：commons-httpclient、commons-codec、commons-logging。用maven则只需添加如下dependency即可：

<dependency>
    <groupId>commons-httpclient</groupId>
    <artifactId>commons-httpclient</artifactId>
    <version>3.1</version>
</dependency>

核心代码如下：

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
import java.io.IOException;

public class Main {

    public static String readUrl(String url) {
        PostMethod method = new PostMethod(url);
        String res = null;
        try {
            new HttpClient().executeMethod(method);
            res = new String(method.getResponseBodyAsString().getBytes(), "utf8");
        } catch (IOException e) {
            e.printStackTrace();
        }
        return res;
    }

    public static void main(String[] args) {
        System.out.println(readUrl("http://blog.zzkun.com"));
    }
}

爬取本博客网站，执行结果如下：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java获取网页内容

以前都是用python写爬虫，这次使用java。代码虽然多了点，不过还是静态类型语言代码提示舒心点。获取网页源代码算是爬虫的基本入门吧。我们采用Apache的commons-httpclient包进行抓取。需要用到三个包：commons-httpclient、commons-codec、commons-logging。用maven则只需添加如下dependency即可：<dependency>
复制链接

扫一扫

专栏目录

geekun CSDN认证博客专家 CSDN认证企业博客

码龄8年

13: 原创

26万+: 周排名

173万+: 总排名

15万+: 访问

: 等级

853: 积分

8: 粉丝

24: 获赞

12: 评论

36: 收藏

私信

关注

热门文章

分类专栏

C/C++ 1篇
Python 3篇
Java 6篇
前端 1篇
程序设计 2篇
Linux

最新评论

修改IntelliJ IDEA中Maven项目的默认JDK版本
小菜灬回复 ice_vane: ....
IDEA+Maven+Spring+SpringMVC+SpringJDBC整合Demo
wuyongzhou 回复 wuyongzhou: 尝试了一段时间终于可以了，也不知道我第一次不小心搞错了哪里，现在已经可以实现controller依赖service接口，service实现依赖dao接口。看来一段时间不搞，学过的都忘光
IDEA+Maven+Spring+SpringMVC+SpringJDBC整合Demo
wuyongzhou: 没看到楼主是在哪里定义视图路径的。我自己稍微改了下。这是指定页面路径，配置在springmvc-servlet.xml 这个文件中 [code=html] <bean id="defaultViewResolver" class="org.springframework.web.servlet.view.InternalResourceViewResolver"> <property name="viewClass" value="org.springframework.web.servlet.view.JstlView"/> <property name="prefix" value="/WEB-INF/views/"/> <property name="suffix" value=".jsp"/> </bean> [/code] [code=plain] 其余和楼主一致，主要是jsp文件位置和springXML有些区别。 PS：自己画蛇添足在dao和service上面加多了个接口层，结果不行了。这个要好好研究
Python3 venv 创建虚拟环境
izhengimoi 回复 qq_41488622: 你要在Scipts目录下面运行activate，然后再转到你所需要的目录下面
Python3 venv 创建虚拟环境
qq_41488622: 急需解答，刚开始使用django就遇到这样的问题，原来是有activate的，今天不知道怎么搞得突然创建虚拟环境的时候没有了activate和pip那些文件，然后就没法激活了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。