此文主要记录我在18年寒假期间,收集Avrix论文的总结
寒假生活题外
在寒假期间,爸妈每天让我每天跟着他们6点起床,一起吃早点收拾,每天7点也就都收拾差不多。
早晨的时光是人最清醒的时刻,而且到十点左右才开始帮忙做中午饭,中间这么大把的时光,我就来做做自己喜欢的事情。小外甥女也回来,但她每天只有10点起床后才跟我玩,真希望她能早起背背古诗文。
概述
整个项目由数据采集(Python),数据存储(Mysql),数据可视化(C#)组成。
数据采集主要负责从网络上,获取Avrix的论文基本信息与论文下载地址。将其存储至MySQL,此过程中将分析Avrix上网页的结构,依靠依然是Chrome进行。
数据存储食用的MySQL,其实我蛮想用SqlServer的,之前的东家是SqlServer,操作极其稳定与简单,速度很快,功能很全。新东家节约成本给我们多发点工资,用起来MySql了,使用了一段时间,大体上差不多,数据转存备份比转存比SqlServer复杂一些。
数据可视化,目前做的部分是C#编译的一个查询界面,可以查询到相应的论文,可以从数据库中检索出论文,并链接指向的PDF文件,使用系统默认软件打开PDF。
分项陈述
pyhon数据采集部分
直接上代码
# -*- coding:utf-8 -*-
#作者:Qt.chao
#时间:2018/02/20
#综述:从Cornell University的图书馆Arvix主页上,获取计算机领域Computer Vision and Pattern Recognition的相关论文
import urllib.request
import pymysql
from bs4 import BeautifulSoup
import requests
import time
import re
import os
# 数据库连接基础类
class Conn_Mssql:
#查询Mysql使用sql语句
def Select_mssql(strsql):
#数据库连接信息
conn = pymysql.connect("localhost", "**username**", "**password**", "internetdaq", charset="utf8")
cur = conn.cursor()
cur.execute(strsql)
return cur
#插入与更新sql语句使用
def InsertOrUpdate_mssql(strsql):
# 数据库连接信息
conn = pymysql.connect("localhost", "**username**", "**password**", "internetdaq", charset="utf8")
cur = conn.cursor()
cur.execute(strsql)
conn.commit()
conn.close()
return cur
#获取网络信息中的信息,并存储
class Get_HttpMessage:
# 下载文件函数(根据连接地址,下载至D:StorePDF目录下)
def getFile(url):
try:
file_name = url.split('/')[-1]
file_path = "StorePDF\\"+file_name
u = urllib.request.urlopen(url)
except :
print(url, "url file not found")
return
block_sz = 90192
with open(file_path, 'wb') as f:
while True:
buffer = u.read(block_sz)
if buffer:
f.write(buffer)
else:
break
# 成功获取下载并打印下载信息
print("Sucessful to download" + " " + file_name)
# 获取文章中的PDF文档链接地址并下载
def getPaperFile(url,file_name,path):
try:
file_name = url.split('/')[-1]
file_path = path +"\\"+file_name
u = urllib.request.urlopen(url)
except :
print(url, "url file not found")
return
block_sz = 901920
with open(file_path, 'wb') as f:
while True:
buffer = u.read(block_sz)
if buffer:
f.write(buffer)
else:
break
print("Sucessful to download" + " " + file_name)
# 从页面中获取论文数据(PDF下载地址与论文的标题等信息)
def startGet(strUrl):
print('start')
# 链接的APPM网络
url = strUrl
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
data = response.read()
soup = BeautifulSoup(data, "lxml")
for link1 in soup.find_all(id=re.compile("dlpage")):
for linklist in link1.find_all("dl"):
# 论文连接地址相关的信息
linklistLpdf = linklist.find_all("dt")
# 论文标题作者等相关信息
linklistLName = linklist.find_all("dd")
# 节点信息长度
cont_pdf = len(linklistLpdf)
cont_Name = len(linklistLName)
if cont_pdf == cont_Name :
for linkNum in range(0,(cont_Name)):
onepdf = linklistLpdf[linkNum].find_all(href=re.compile("pdf"))
if len(onepdf)>0 :
# PDF下载的连接地址