用python获取山东女子学院某一页的学校要闻

一、思路

观察新闻列表页面源代码,用正则表达式筛选,找到所有新闻超链接的地址,保存备用。

  <li id="line_u13_0" style="display:none;">
            <a href="../../info/1031/8111.htm" target="_blank" title="One Asia财团理事长一行来校访问">One Asia财团理事长一行来校访问</a>
<span>2017/11/03</span>
           </li>
       

        <li id="line_u13_1" style="display:none;">
            <a href="../../info/1031/8105.htm" target="_blank" title="学校召开校友分会换届筹备工作调度会">学校召开校友分会换届筹备工作调度会</a>
<span>2017/11/02</span>
           </li>
遍历超链接地址,尝试获取每一个新闻页面的源代码,用正则表达式筛选出关键内容

 <div id="vsb_content_4" class="content"><p class="vsbcontent_start">10月26日下午,基础部党总支在博雅楼会议室召开全体教职工会议,传达学习党的十九大精神。会议由基础部党总支书记潘建勋主持。</p>
<p>会上,首先由李慧芬教授作学习十九大精神专题辅导,从新的历史方位、新的理论创新成果、新的主要矛盾、新的奋斗目标、党的建设新的总要求五个方面,对十九大报告的主要内容进行了解读,阐释了十九大在新的历史起点上进行伟大斗争、建设伟大工程、推进伟大事业、实现伟大梦想具的重大现实意义和深远历史意义。随后,与会教师以支部为单位进行分组讨论座谈,大家纷纷表示,十九大的报告立意高远、内涵丰富、思想深刻,闪耀着马克思主义真理的光辉,具有很强的前瞻性、战略性和指导意义,是我们党迈入新时代、开启新征程、续写新篇章的政治宣言和行动指南。今后一定要以永不懈怠的精神状态,拥抱新时代,践行新思想,扎扎实实把十九大精神全面落实到教育教学工作中。</p>
<p class="vsbcontent_end">潘建勋就基础部党总支进一步学习贯彻十九大精神作了部署安排,要求全体教职工深刻理解党的十九大的重大政治意义、理论意义和实践意义,把学习贯彻十九大精神作为一项长期任务,通过持续深入的学习贯彻,深刻领会精神实质,用十九大精神武装头脑,使十九大精神成为各项工作的行动指南;要把学习贯彻十九大精神同学习贯彻学校第二次党代会精神结合起来,同基础部的实际和工作重点结合起来,立足本职,履职尽责,扎实推进基础部的党建工作和教育教学改革,为落实立德树人的根本任务,实现学校党代会确定的各项目标任务、建设应用型地方特色名校贡献力量。</p>
<p style="text-align: center">
 <img src="/__local/0/B0/33/4B467D4FE87B8F5F7FC134FD93B_DB9E77B7_14278.jpg" width="640" vsbhref="vurl" vurl="/_vsl/0B0334B467D4FE87B8F5F7FC134FD93B/DB9E77B7/14278" vheight="" vwidth="640" orisrc="/__local/9/86/84/EE607CC06879F8F6B91CBC5D478_FF960237_6CE867.jpg" class="img_vsb_content"></p>
<p class="vsbcontent_end"><br></p>

二、代码实现

#coding=utf-8
from urllib import request
import re
url_temp = input("Please input your url:\n")
url = str(url_temp)
headers = {
    'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
    r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
    'Connection': 'keep-alive'
  }#浏览器头
req = request.Request(url, headers=headers) 
page = request.urlopen(req).read()#读出返回内容
page = page.decode('utf-8')#以utf8解码
key = r'(/info.*?.htm)'#正则表达式
key = re.compile(key)
result = key.findall(page)#正则表达式过滤内容得到字符组
#开始循环爬新闻内容
for item in result:
    res = request.Request("http://www.sdwu.edu.cn"+item, headers=headers) 
    article = request.urlopen(res).read()#读出返回内容
    article = article.decode('utf-8')
    article = re.compile(r'<p.*</p>').findall(article) #筛选出带标签的关键内容
    print (article)
    print ("\n\n\n\n")


三、反思

初学python,语法并不熟悉

正则表达式没学会。。。。

继续努力

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值