java爬虫--利用java爬取网页数据的方法与思路，以爬取“食品许可公示的数据”为例

qq_BeBetterCoder

已于 2023-04-06 21:08:43 修改

阅读量1.5w

点赞数 10

分类专栏：项目 java语言文章标签： java 数据网络爬虫

于 2020-06-10 15:46:08 首次发布

本文链接：https://blog.csdn.net/qq_16317273/article/details/79495148

版权

本文介绍了一种使用Java爬取食品许可公示数据的方法，通过解析JSON和HTML，获取厂家地址和食品类型等信息，并将其存储到MySQL数据库。项目使用IntelliJ IDEA，Java语言，依赖包括jsoup和gson。文章详细讲述了连接服务器、模拟浏览器交互、数据解析和数据库操作的过程。

摘要由CSDN通过智能技术生成

项目背景

先说下背景，前几天老哥让帮忙从网上抓点数据，因为他是做食品添加剂的推广工作的，所以需要知道有哪些工厂或者厂家可能需要，然后他给了我一个网址----某许可证公示平台。既然是公示平台，数据应该就是公开的，爬起来应该不会被查水表吧，看这个警徽还是怕怕的 .......>_>

如下:

图已省略..........防止被查水表

抓取的数据类似图上列表中的数据，但是他说还要厂家地址和食品类型，能有其他数据更好。

然后我研究了下，发现图上页面是没有厂家地址的（但是我这个页面也抓了，服务器返回的是json格式的数据，解析下json数据存入数据库就行，这个平台貌似是近几个月才出的），也不够详细，在其他页面有带厂家地址的数据，给服务器发送请求返回的是html的数据，解析html数据，将所需数据存入数据库。

带地址的网页长这样：

（URL:http://******websearch/SearchCardAction.do?operate=searchGyEntCard&operPage=card_spscxkz_list&cardtype=103）：

点击每个生产者名称都会跳出一个弹窗，该弹窗显示的是食品许可证的详细数据（后台服务器实际应该是以该公司在数据库中的uuid为条件，去详细查了下该生产许可证的信息，然后返回给了前端）：

（URL:http://******/websearch/SearchCardAction.do?operate=viewGyEntCard&operPage=card_spscxkz_view&recid=2c9080845707bcc30159a66100300bd3）

ok，现在目标很明确，就是从带厂家地址的网页上把所有公司的uuid拿到，然后以每个uuid作为URL变化的条件（“recid=”后面是变化的，拼接URL的时候将uuid拼在具体的链接上来访问服务器），从弹窗的那个页面拿到详细的数据，存入数据库。

项目环境

ide：intellij IDEA 2017.2.5

编程语言：java

数据库：mysql

管理工具：maven

需要导包：mysql-connector-java，jsoup（解析html）等，如果要解析json可能还要导入gson的包。

我把重要的依赖贴出来（默认大家都是使用过maven的，如果不使用maven，你可以到网上下载jar包添加到项目里）:

<dependency>
    <groupId>com.google.code.gson</groupId>
    <artifactId>gson</artifactId>
    <version>2.8.0</version>
</dependency>
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>5.1.38</version>
</dependency>

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.9.2</version>
</dependency>

项目详情

思路上面说的差不多了，要补充的是，我们使用HttpURLConnection来连接服务器（httpclient等开源项目或者工具应该也行），对于POST请求和GET请求稍微有些区别，这个网上也比较多，大家可以自行百度或者Google。然后是代码，我把主要部分都贴出来，可能代码会有些不规范的地方，大家也可以指出，项目结构比较简单，代码也不长，直接主函数里面就执行完了所有的内容，新人拿来练手也不错。

项目整体的结构：

1.主类部分

package main; /**
 * @Author tang_zhen
 * @Date 2018/3/7
 * @Description
 */
import model.DataBase;
import com.google.gson.JsonObject;
import service.dao.DBUtils;
import service.MyParse;

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.util.List;

public class GetData {
    /**
     * 发起http请求并获取结果
     * @param

最低0.47元/天解锁文章

qq_BeBetterCoder

关注

10
点赞
踩
31

收藏

觉得还不错? 一键收藏
6
评论
java爬虫--利用java爬取网页数据的方法与思路，以爬取“食品许可公示的数据”为例

项目背景先说下背景，前几天老哥让帮忙从网上抓点数据，因为他是做食品添加剂的推广工作的，所以需要知道有哪些工厂或者厂家可能需要食品添加剂，然后他给了我一个网址----某食品药品许可公示平台。既然是公示平台，数据应该就是公开的，爬起来应该不会被查水表吧，看这个警徽还是怕怕的 .......>_>如下:图已省略..........防止被查水表抓取的数据类似...
复制链接

扫一扫

专栏目录