中国大学排名python爬虫_python爬虫爬取2020年中国大学排名

最新推荐文章于 2023-12-29 23:49:31 发布

weixin_39717026

最新推荐文章于 2023-12-29 23:49:31 发布

阅读量246

点赞数

文章标签：中国大学排名python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39717026/article/details/111459464

版权

from bs4 import BeautifulSoup #网页解析获取数据

import re #正则表达式进行文字匹配

import urllib.request, urllib.error #制定url 获取网页数据

importxlwtdefmain():

baseurl= "http://m.gaosan.com/gaokao/265440.html"

#1爬取网页

datalist =getData(baseurl)

savepath= "中国大学排名.xls"saveData(datalist,savepath)#正则表达式

paiming = re.compile(r'

(.*).*.*.*.*') #创建超链接正则表达式对象，表示字符串模式，规则

xuexiao = re.compile(r'

.*(.*).*.*.*')

defen= re.compile(r'

.*.*(.*).*.*')

xingji= re.compile(r'

.*.*.*(.*).*')

cengci= re.compile(r'

.*.*.*.*(.*)')#爬取网页

defgetData(baseurl):

datalist=[]

html= askURL(baseurl) #保存获取到的网页源码

#print(html)

#【逐一】解析数据 (一个网页就解析一次)

soup = BeautifulSoup(html, "html.parser") #soup是解析后的树形结构对象

for item in soup.find_all('tr'): #查找符合要求的字符串形成列表

#print(item) #测试查看item全部

data = [] #保存一个学校的所有信息

item =str(item)#排名

paiming1 = re.findall(paiming, item) #re正则表达式查找指定字符串 0表示只要第一个前面是标准后面是找的范围

#print(paiming1)

if(notpaiming1):pass

else:print(paiming1[0])

data.append(paiming1)if(paiming1 indata):#学校名字

xuexiao1 =re.findall(xuexiao, item)[0]#print(xuexiao1)

data.append(xuexiao1)#得分

defen1 =re.findall(defen, item)[0]#print(defen1)

data.append(defen1)#星级

xingji1 =re.findall(xingji, item)[0]#print(xingji1)

data.append(xingji1)#层次

cengci1 =re.findall(cengci, item)[0]#print(cengci1)

data.append(cengci1)#print('-'*80)

datalist.append(data) #把处理好的一个学校信息放入datalist中

returndatalist#得到指定一个url网页信息内容

defaskURL(url):#我的初始访问user agent

head = { #模拟浏览器头部信息，向豆瓣服务器发送消息伪装用的

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"}#用户代理表示告诉豆瓣服务器我们是什么类型的机器--浏览器本质是告诉浏览器我们可以接受什么水平的文件内容

request = urllib.request.Request(url, headers=head) #携带头部信息访问url

#用request对象访问

html = ""

try:

response= urllib.request.urlopen(request) #用urlopen传递封装好的request对象

html = response.read().decode("utf-8") #read 读取可以解码防治乱码

#print(html)

excepturllib.error.URLError as e:if hasattr(e, "code"):print(e.code) #打印错误代码

if hasattr(e, "reason"):print(e.reason) #打印错误原因

returnhtml#3保存数据

defsaveData(datalist, savepath):

book= xlwt.Workbook(encoding="utf-8", style_compression=0) #创建workbook对象样式压缩效果

sheet = book.add_sheet('中国大学排名', cell_overwrite_ok=True) #创建工作表一个表单 cell覆盖

for i in range(0, 640):print("第%d条" % (i + 1))

data=datalist[i]#print(data)

for j in range(0, 5): #每一行数据保存进去

sheet.write(i , j, data[j]) #数据

book.save(savepath) #保存数据表

#主函数

if __name__ == "__main__": #当程序执行时

##调用函数程序执行入口

main()#init_db("movietest.db")

print("爬取完毕！")

weixin_39717026

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
中国大学排名python爬虫_python爬虫爬取2020年中国大学排名

from bs4 import BeautifulSoup #网页解析获取数据import re #正则表达式进行文字匹配import urllib.request, urllib.error #制定url 获取网页数据importxlwtdefmain():baseurl= "http://m.gaosan.com/gaokao/265440.html"#1爬取网页datalist ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。