谷歌学术搜索简易PDF爬虫

最新推荐文章于 2024-07-04 18:29:30 发布

Sithope

最新推荐文章于 2024-07-04 18:29:30 发布

阅读量8.6k

点赞数 3

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/rrtyui/article/details/50503442

版权

本文介绍了作者在参与浙大项目时，为学习爬虫技术而编写的一个谷歌学术搜索PDF爬虫。使用Java进行开发，结合Eclipse和数据库，利用HttpClient、HtmlParser等库抓取并下载谷歌学术上的PDF。爬虫包括MainProcess、FileCatch、FileParse和PaperDownload四个类，实现了搜索、解析页面、自动换页和PDF下载等功能。

摘要由CSDN通过智能技术生成

保研完之后，该浪的也都浪够了，是时候重新开始认真学技术了。2015年12月20号，我被分配到一个浙大的项目中去，去了之后我发现什么都不会，而且这个项目中好多浙大的研究生，博士。我有点方，不过项目总负责人王老师倒来了个积极，在一一向这些学神们介绍了我之后，我不觉感到肩上的担子重了。不过我有信心，同样都是人，我努力也一定能和他们一样的（更何况我一直认为自己不一般，只是没到时候，嘿嘿）。

———————————————————————————————————————————————————

刚接触这个项目的时候，因为什么都不会，所以学长给我讲述了这个项目怎么怎么需要论文数据之后，就分配给了我整理数据的工作（一开始听到确实让人感觉很低级...）。一开始先要学会搜集数据，所以我就开始了爬虫的学习，之前虽然接触过，但从来没有自己打过爬虫程序，反正是学习为主，所以我就决定自己去学习爬虫技巧，本次带来的就是我自己编的一个谷歌学术搜索的爬虫，它会自动下载谷歌学术上面的PDF。

我开发环境是Eclipse，开发语言是java。还要配合数据库存储对应数据。在开始编程之前，先介绍一下我用的几个jar包：

1.commons-httpclient-3.1.jar

2.htmlparser1_6.jar

3.mysql-connector-java-commercial-5.1.25-bin.jar

4.commons-io-2.4.jar

大概就是这些了。

这是我的四个类的主要作用。下面开始上代码。

MainProcess类:

package com.google.search;



import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.Scanner;

public class MainProcess {
	static String st="http://scholar.google.com/scholar?start=0&q=graphic+fluid&hl=zh-CN&as_sdt=0,5";
	static String name="GoogleDownload";
	static int num=10;
  public static void main(String Args[])throws Exception{

	Connection conn=null;
	
	//connect the MySQL database
	try {
		Class.forName("com.mysql.jdbc.Driver");
		String dburl = "jdbc:mysql://localhost:3306?useUnicode=true&characterEncoding=utf8";
		conn = DriverManager.getConnection(dburl, "root", "");
		System.out.println("connection built");
	} catch (SQLException e) {
		e.printStackTrace();
	} catch (ClassNotFoundException e) {
		e.printStackTrace();
	}
	
	//If you need...
	//InputSystem();

	CreatTable(conn);
	FileCatch ft=new FileCatch