保研完之后,该浪的也都浪够了,是时候重新开始认真学技术了。2015年12月20号,我被分配到一个浙大的项目中去,去了之后我发现什么都不会,而且这个项目中好多浙大的研究生,博士。我有点方,不过项目总负责人王老师倒来了个积极,在一一向这些学神们介绍了我之后,我不觉感到肩上的担子重了。不过我有信心,同样都是人,我努力也一定能和他们一样的(更何况我一直认为自己不一般,只是没到时候,嘿嘿)。
———————————————————————————————————————————————————
刚接触这个项目的时候,因为什么都不会,所以学长给我讲述了这个项目怎么怎么需要论文数据之后,就分配给了我整理数据的工作(一开始听到确实让人感觉很低级...)。一开始先要学会搜集数据,所以我就开始了爬虫的学习,之前虽然接触过,但从来没有自己打过爬虫程序,反正是学习为主,所以我就决定自己去学习爬虫技巧,本次带来的就是我自己编的一个谷歌学术搜索的爬虫,它会自动下载谷歌学术上面的PDF。
我开发环境是Eclipse,开发语言是java。还要配合数据库存储对应数据。在开始编程之前,先介绍一下我用的几个jar包:
1.commons-httpclient-3.1.jar
2.htmlparser1_6.jar
3.mysql-connector-java-commercial-5.1.25-bin.jar
4.commons-io-2.4.jar
大概就是这些了。
这是我的四个类的主要作用。下面开始上代码。
MainProcess类:
package com.google.search;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.Scanner;
public class MainProcess {
static String st="http://scholar.google.com/scholar?start=0&q=graphic+fluid&hl=zh-CN&as_sdt=0,5";
static String name="GoogleDownload";
static int num=10;
public static void main(String Args[])throws Exception{
Connection conn=null;
//connect the MySQL database
try {
Class.forName("com.mysql.jdbc.Driver");
String dburl = "jdbc:mysql://localhost:3306?useUnicode=true&characterEncoding=utf8";
conn = DriverManager.getConnection(dburl, "root", "");
System.out.println("connection built");
} catch (SQLException e) {
e.printStackTrace();
} catch (ClassNotFoundException e) {
e.printStackTrace();
}
//If you need...
//InputSystem();
CreatTable(conn);
FileCatch ft=new FileCatch