爬取学校教务网信息

Python爬取学校教务处的通知

以西南大学为例,爬取西南大学教务处的相关通知

  1. 去网上搜索西南大学教务处的官网
    在这里插入图片描述
  2. 爬取每个信息的标题和网址
import urllib.request
import re
from lxml import html
etree=html.etree
url1=r'http://jwc.swu.edu.cn'
res=urllib.request.urlopen(url1).read()
response=res.decode('utf-8')
# target="_blank" title="孙红举副教授获教育部 国家语委“中国语言资源保护奖”先进个人称号">
# <a href="/s/jwc/jwxx/20200318/4043479.html"
pat1=r'target="_blank" title="(.*?)">'
result1=re.compile(pat1,re.I)
data1=result1.findall(response)
result2=etree.HTML(response)
data2=result2.xpath('//li[@class="clearfix"]/p/a/@href')
# print(response)
for i in range(0,len(data1)):
    fullurl=url1+data2[i]
    print(i+1,'主题:',data1[i],'网址:',fullurl)
  1. 运行程序
    在这里插入图片描述
  2. 点击任意一个网址,查看结果在这里插入图片描述
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值