import webbrowser
import re
import urllib
#获取hdu网页
def getHtml_hdu(url):
page = urllib.urlopen(url)
html = page.read()
#unicodehtml = html.decode("utf-8")
#return unicodehtml
return html
#获取poj网页
def getHtml_poj(url):
page = urllib.urlopen(url)
html = page.read()
#unicodehtml = html.decode("utf-8")
#return unicodehtml
return html
#获取cug网页
def getHtml_cug(url):
page = urllib.urlopen(url)
html = page.read()
unicodehtml = html.decode("utf-8")
return unicodehtml
#获取hdu中用户信息
def zhenghe_hdu(str1,userid,imgre):
html=getHtml_hdu( str1+userid )
return re.findall(imgre,html)
#获取cug中用户信息
def zhenghe_cug(str1,userid,imgre):
html=getHtml_cug( str1+userid )
return re.findall(imgre,html)
#获取poj中用户信息
def zhenghe_poj(str1,userid,imgre):
html =getHtml_poj( str1+ userid)
return re.findall(imgre,htm
利用python爬虫抓取OJ上做题信息(终结版)
最新推荐文章于 2024-08-02 21:44:28 发布
本文介绍了一个Python爬虫程序,用于抓取杭州电子科技大学、北京大学和中国地质大学三个在线判题系统(OJ)的用户做题记录,并进行统计分析。程序根据输入的昵称抓取各个OJ的做题信息,部分用户在不同OJ的昵称可能不一致,导致某些OJ的做题数量显示为0。
摘要由CSDN通过智能技术生成