IDEA从零开始部署自己的项目(jsoup爬虫)

IDEA从零开始部署自己的项目(jsoup爬虫)

前面基本部署就不说了(然后需要企业版的idea)
tomcat初步部署博客链接

项目简介:

很多小说网站都只提供在线阅读但不提供下载,这个项目的主要功能是把在线阅读网站的小说内容爬取下来生成一个txt文件以供读者下载

思路介绍:

用户在使用前要先复制某本小说的第一章的链接,粘贴到网页的输入框内,点击确定后,网页将链接发送给MainServlet,就是主要的服务器进行解析,先获得小说名称,然后去数据库中查询,如果数据库中已经存在了,就直接从数据库中导出文本,生成txt文件,同时网页跳转到新的download.jsp页面,有一个超链接提供下载,如果数据库中没有,则调用爬取方法,开始一章章爬取,生成txt文件,同时将名称和内容导入数据库.

开始部署

1.准备工作

1)加入两个jar包 导入lib文件夹;
在这里插入图片描述
此处jar文件的版本一定要和你jdk,mysql的版本一致,然后右键选择

在这里插入图片描述
如果不这么做,以后会发现idea里能跑,在浏览器上就显示找不到jar包

2)创建两个文件夹一个image放背景图,一个text放文本文档

2.前端代码编写

1)非常简单的html,css和javascript代码

<%--
  Created by IntelliJ IDEA.
  User: chenzhenghui
  Date: 2019/10/8
  Time: 6:59 下午
  To change this template use File | Settings | File Templates.
--%>
<%@ page contentType="text/html;charset=UTF-8" language="java" %>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>czh的第一个项目</title>
</head>
<style>


    h1{
   
        font-size:54px;
        color:#FFF;
    }
    h2{
   
        font-size:30px;
        color:#FF0000;
    }
    h6{
   
        font-size:24px;
        color:#FFF;
    }
    h5{
   
        font-size:55px;
        color:transparent
    }
</style>
<body style="background-image: url(image/0f04af422502a40b6c8dc19d53d1f348-2.jpg)">
<div style="text-align: center;">
    <table width="100%" border="0">
        <tr>
            <h5>占位符</h5>
        </tr>
        <tr>

        </tr>
        <tr>

            <td align="center" width="90%"><h1>欢迎使用在线阅读网站小说爬取工具</h1></td>

        </tr>
        <tr>
            <td align="center" width="90%"><h6>本站可提供小说的txt格式下载</h6></td>
        </tr>
        <tr>
            <td width="50%" align="center">

                <h2>
                    在使用前请复制小说网站的第一章的链接,粘贴到下面的文本框中并点击确定
                </h2>
            </td>
        </tr>
        <tr>
            <td width="100%" align="center">

                <form name="form1" action="MainServlet" method="get" >

                    <input name="url" type="text" style="width:600px; height:40px;" /><br>
                    <input type="button" width="200" align="center" value="确定" style="width:90px;height:1000px" onclick="check()">

                </form></td>
            <script language="JavaScript">

                function check(){
   
                    if(form1.url.value==""){
   
                        alert("请输入链接!")
                    }

                    else{
   
                        form1.submit()
  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
您好!对于使用Java编写网络爬虫,我们可以使用Jsoup库来进行HTML解析和数据抓取。 首先,您需要在项目中引入Jsoup库。您可以在Maven或Gradle构建工具中添加以下依赖项: Maven: ```xml <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency> ``` Gradle: ```groovy implementation 'org.jsoup:jsoup:1.13.1' ``` 接下来,您可以使用Jsoup来获取和解析网页内容。以下是一个简单的示例代码,演示如何使用Jsoup来爬取网页并提取所需的数据: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class WebCrawler { public static void main(String[] args) { try { // 使用Jsoup连接到目标网页 Document document = Jsoup.connect("http://example.com").get(); // 使用CSS选择器提取所需的元素 Elements links = document.select("a[href]"); // 遍历并打印提取到的元素 for (Element link : links) { System.out.println("Link: " + link.attr("href")); System.out.println("Text: " + link.text()); } } catch (IOException e) { e.printStackTrace(); } } } ``` 在上面的示例中,我们使用`Jsoup.connect()`方法连接到目标网页,并使用`document.select()`方法使用CSS选择器提取所有带有`href`属性的链接元素。然后,我们遍历这些链接元素,并打印出链接的URL和文本。 您可以根据自己的需求进一步扩展和修改代码来满足特定的爬虫需求。请注意,在编写爬虫时,请遵守相关网站的使用条款和政策,以避免违反规定。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值