java爬取当当网所有分类的图书信息(ISBN,作者,出版社,价格,所属分类等)
顺手写的,没有建立新项目,放我自己的项目的一个文件夹里了,有兴趣的朋友可以拉下来试试
https://gitee.com/panlufei/demo/blob/master/src/main/java/com/plf/demo1/spider/DangDangBook.java
首先百度了一下,当当网大概有900-1000w本书,量比较大, i5(8代 ) +16G 内存,大概1分钟60多条, 单台电脑估计要 5天左右,当然你也可以用多台电脑跑,时间节省不少.
跑下来的数据 我用sql 格式,保存到了txt文本文档里,也会有错误url收集文档.
到时候取mysql执行这些insert 语句就行了;
这是表结构:
CREATE TABLE `book` (
`id` varbinary(32) NOT NULL,
`isbn` varchar(20) NOT NULL,
`book_name` varbinary(300) NOT NULL,
`price` varchar(20) NOT NULL,
`author` varchar(100) NOT NULL,
`book_time` varchar(50) NOT NULL,
`type` varchar(400) NOT NULL,
`publisher` varchar(200) NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
jar引用:(maven)
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
<dependency>
<groupId>com.squareup.okhttp3</groupId>
<artifactId>okhttp</artifactId>
<version>3.9.0</version>
</dependency>
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-lang3</artifactId>
<version>3.8.1</version>
</dependency>
<dependency>
&l