java爬取当当网所有分类的图书信息(ISBN,作者,出版社,价格,所属分类等)

本文链接：https://blog.csdn.net/u014298282/article/details/101424640

这篇博客介绍了如何使用Java编写爬虫程序，抓取当当网上所有图书分类的详细信息，包括ISBN、作者、出版社、价格和分类。博主分享了实现思路，提到当当网图书数量庞大，预计单台电脑爬取全部数据需要约5天，并提供了数据存储方式和表结构。文章包含获取分类URL的方法和爬取数据的代码片段。

摘要由CSDN通过智能技术生成

java爬取当当网所有分类的图书信息(ISBN,作者,出版社,价格,所属分类等)

顺手写的,没有建立新项目,放我自己的项目的一个文件夹里了,有兴趣的朋友可以拉下来试试

https://gitee.com/panlufei/demo/blob/master/src/main/java/com/plf/demo1/spider/DangDangBook.java

首先百度了一下,当当网大概有900-1000w本书,量比较大, i5(8代 ) +16G 内存,大概1分钟60多条, 单台电脑估计要 5天左右,当然你也可以用多台电脑跑,时间节省不少.

跑下来的数据我用sql 格式,保存到了txt文本文档里,也会有错误url收集文档.
到时候取mysql执行这些insert 语句就行了;
这是表结构:

CREATE TABLE `book` (
  `id` varbinary(32) NOT NULL,
  `isbn` varchar(20) NOT NULL,
  `book_name` varbinary(300) NOT NULL,
  `price` varchar(20) NOT NULL,
  `author` varchar(100) NOT NULL,
  `book_time` varchar(50) NOT NULL,
  `type` varchar(400) NOT NULL,
  `publisher` varchar(200) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

jar引用:(maven)

		<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
         <dependency>
            <groupId>com.squareup.okhttp3</groupId>
            <artifactId>okhttp</artifactId>
            <version>3.9.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-lang3</artifactId>
            <version>3.8.1</version>
        </dependency>
        <dependency>
            &l