java爬虫爬取价格,Java爬虫：大量抓取二手房信息并存入云端数据库过程详解（三）...

最新推荐文章于 2022-10-25 17:45:30 发布

Lemaden

最新推荐文章于 2022-10-25 17:45:30 发布

阅读量264

点赞数

文章标签： java爬虫爬取价格

这里详细讲一下将解析好的所有房源数据存入云端数据库的表中:

1、首先是获得数据库连接，Java提供了数据库链接的接口，但实现是由各个数据库提供者自己实现的，这里需要mysql提供的第三方包：mysql-connector-java-8.0.13.jar

、、新建一个类用于封装数据库处理的方法：

//封装数据库相关操作

public class OperationOfMySQL {

//只创建一次链接

Connection con;

Statement state;

public OperationOfMySQL() {

super();

this.con = connectionToDatabase();

try {

//state用于传入sql语句对数据库进行操作

this.state = con.createStatement();

} catch (Exception e) {

System.out.println("链接失败！");

}

如上面的代码，创建对象时就创建连接：

connectionToDatabase()方法返回获得的数据库链接：

//返回数据库链接的方法

private static Connection connectionToDatabase() {

Connection con = null;

//创建驱动对象

try {

Driver driver = new Driver();

String url = cloud;

Properties info = new Properties();

//准备数据库链接信息

info.put("user", "rds_repl");

info.put("password", "123456");

//获取数据库链接

con = driver.connect(url, info);

}catch (SQLException e) {

System.out.println("链接数据库失败！");

return null;

}

System.out.println(con+"\n链接创建成功！");

return con;

}

//cloud是加载云端驱动的数据库，格式为：

//String cloud = "jdbc:mysql://服务器地址:端口号/数据库名?severTimzone=UTC";

、、关于云端数据库的地址和端口号这里就不贴出来了(云端和本地的数据库链接其实方法一样)，值得注意的是，如果用的是数据库连接池有必要设置一下链接超时，虽然我并没有这样做。。。

PS：还有就是8.0版本加载驱动的类是 com.mysql.cj.jdbc.Driver;多了个“cj”，所以必须设置时区：severTimezone=UTC，5.0版本的不用，不然运行时会报错。(在此只是提醒一下，具体原因就不细说了)；

Java是通过state对象传递sql字符串给数据库。由于数据库事先存在，所以需要的是建一张表来存储房屋信息，键表语句为：

//如果数据库中不存在表house1就创建一张

static private String SQLCreateTaleStr = "CREATE TABLE IF NOT EXISTS house1"

+ "("

+ "title varchar(255) ,"

+ "area double ,"

+ "price varchar(64) ,"

+ "unit_price double ,"

+ "direction varchar(64),"

+ "decoration varchar(64),"

+ "houseStyle varchar(64) ,"

+ "floor varchar(64),"

+ "buildTime int(11) ,"

+ "community varchar(64),"

+ "location varchar(64) ,"

+ "gdpperperson double"

+ ")ENGINE = InnoDB DEFAULT CHARSET = utf8;";

然后写一个方法将房屋信息转换成sql插入表的语句：

//用于生成插入语句的方法,传入一个房子和表的名字

public String insertStr(SecondHouse house) {

String insert = "insert into house1"

+ " values('"

+house.getElemName()+ "','"

+house.getArea()+ "','"

+house.getPrice()+ "','"

+house.getUnit_price()+ "','"

+house.getDirection()+ "','"

+house.getDecoration()+ "','"

+house.getHouseStyle()+ "','"

+house.getFloor()+ "','"

+house.getBuildTime()+ "','"

+house.getCommunity()+ "','"

+house.getLocation()+ "','"

+0+ "');";

return insert ;

}

PS;注意拼接字符串时的空格和标点，确保sql语句能够执行

然后是执行这写语句的方法：

//传入链接，进行对数据库的操作,传入二手房，写进数据库

public void operationOnDtabase(String insertStr) {

try {

//获取执行sql语句动态创建表,即如果表不存在就创建一个

state.execute(SQLCreateTaleStr);

//执行插入语句

state.executeUpdate(insertStr);

//System.out.println(insertStr);

}catch (SQLException e) {

System.out.println("SQL语句执行失败！");

}

System.out.println("执行语句成功！");

}

工具方法都准备好了，需要将其整合：

//传入房屋数组，写入云端数据库，这里的houses数组就是先前存储所有房屋对象的vector集合转换的

public static void writeIntoDtabase(SecondHouse[] houses) {

OperationOfMySQL op = new OperationOfMySQL();

for (int i = 0; i < houses.length; i++) {

try {

//SecondHouse.printHouseInfo(houses[i]);

op.operationOnDtabase(op.insertStr(houses[i]));

} catch (Exception e) {

continue;

}

最后是main方法里面执行网页解析，多线程调用和写入数据库的所有实现;

//---------------------------main方法代替执行--------------------------------------------------------------------

public static void operateMain() {

houseSet = new Vector<>();

//多线程集合

Vectorthreads = new Vector<>();

for (int i = 1; i <= 50; i++) {

Thread1 td1 = new Thread1(i, houseSet);

threads.add(td1);

td1.start();

}

for (int j = 51; j <=100; j++) {

Thread2 td2 = new Thread2(j,houseSet);

threads.add(td2);

td2.start();

}

//等待所有子线程结束join方法

for (Thread thread : threads) {

try {

thread.join();

} catch (InterruptedException e) {

System.out.println("执行失败！");

}

//去除重复数据

Vectorhouses = noneSameVector(houseSet);

//写入数据库

writeIntoDtabase(houses.toArray(new SecondHouse[houses.size()]));

}

额，上面这个方法并不是main方法对吧，因为个爬虫要到导成jar包在一个小服务器上定时运行，所以我在main方法里面调用了这个方法，然后main里面实现定时运行了，这里就不贴出来了。

哦，还有那个去除重复的方法我没贴出来，实际上这个爬虫我解析了多个网站，难免会有相同的房屋信息，所以在这里就除重了，当然，传入sql语句在数据库里面除重更好。

讲一下写这个爬虫的收获:

、、确实感受到了Java语言的魅力所在，虽然并没有写出具有这种魅力的代码，Java无愧为第一语言(不要提PHP)。编程要有耐心，还要有持续学习和不断尝新的思想，开始写这个爬虫之前，对以上写的这些代码我一无所知，觉得都是些很高级的东西。然后，就结合学过的知识和网上了解到的处理方法来一步步实现，写完发现，其实也就那样，自己接触的这些不过是皮毛而已(可能连毛都不算)，还需要再接再厉。

PS：这个爬虫有相当多的缺点和需要优化的地方，我没有细查了，不过基本功能可以正常实现，嗯。

Lemaden

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java爬虫爬取价格,Java爬虫：大量抓取二手房信息并存入云端数据库过程详解（三）...

这里详细讲一下将解析好的所有房源数据存入云端数据库的表中:1、首先是获得数据库连接，Java提供了数据库链接的接口，但实现是由各个数据库提供者自己实现的，这里需要mysql提供的第三方包：mysql-connector-java-8.0.13.jar、、新建一个类用于封装数据库处理的方法：//封装数据库相关操作public class OperationOfMySQL {//只创建一次链接Conn...
复制链接

扫一扫