python3爬虫(基于requests、BeautifulSoup4)之项目实战(三)

python3爬虫(基于requests、BeautifulSoup4)之项目实战(三)

今天是爬取太原理工大学教务处网站新闻的最后一天,我今天将讲解如何循环嵌套爬取每一条新闻及对应的新闻详情。
1.案例分析:
这里写图片描述
这里写图片描述
这是我们要爬取的位置以及每一篇新闻对应正文,通过html代码分析,我们可以整理出如下大体思路:
1.1抓取每篇新闻的链接
1.2到对应链接抓取文章具体信息
通过思路整理,我们可以看出要实现‘自动化爬取’,首先要有一个教务处官网url,之后要抓取全部新闻url,最后用for循环到每一篇文章对应界面上抓取具体内容。
好了,废话不多说了,直接上代码了:

import requests
from bs4 import BeautifulSoup

def getallurls(url):#将主页的新闻界面url全部读取存入列表返回
    result=[]
    res=requests.get(url)
    res.encoding = 'utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    urls=soup.select('.intmc a')
    for a in urls:
        re=url+'/'+a['href']
        # print(a.text)
        result.append(re)
    return result


def getMaininfo(url):#读取每篇新闻的详情
    res=requests.get(url)
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    results=soup.select('.drlrimess p')
    for result in results:
        print(result.text)

def getTitle(url):#读取每篇新闻的标题
    res = requests.get(url)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    urls = soup.select('title')
    print(urls[0].text)

def getCount(url):#获取访问量  难点!!!!涉及js
    res = requests.get(url)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    x=soup.select('table script')[0].text.replace(' ','').strip(')').split(',')
    resulturl='http://jwc.tyut.edu.cn/system/resource/code/news/click/dynclicks.jsp?clickid={}&owner={}&clicktype=wbnews'.format(x[2],x[1])
    count=BeautifulSoup(requests.get(resulturl).text,'html.parser')
    print('访问量:',count)


if __name__ == '__main__':
    url='http://jwc.tyut.edu.cn'
    for i in getallurls(url):
        getTitle(i)
        getCount(i)
        getMaininfo(i)
        print('='*50)

程序效果如下:
这里写图片描述

至于爬取数据的保存技术还在探索中,敬请期待。。。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值