爬取学校新闻网站信息

最新推荐文章于 2024-12-08 00:10:16 发布

coca丶丶

最新推荐文章于 2024-12-08 00:10:16 发布

阅读量1.2k

点赞数

分类专栏： Python 文章标签： Python 爬虫学校新闻

本文链接：https://blog.csdn.net/wangctes/article/details/80079032

版权

本文介绍如何利用Python进行网络爬虫，针对学校官方网站的新闻页面进行数据抓取，涵盖了请求、解析及存储等步骤，帮助读者掌握基础的网络爬虫技能。

摘要由CSDN通过智能技术生成

# -*- coding:UTF-8 -*-
import requests
from bs4 import BeautifulSoup
import json
import urllib
import request

if __name__ == "__main__":
    server = 'http://www.jit.edu.cn/'
    url = 'http://www.jit.edu.cn/myNews_list_out.aspx?infotype=2'
    #根据当前url获得网页回应
    req = requests.get(url)
    #print(req.text)
    
    #获取回应中的HTML内容
    html = req.text

    data = {'__VIEWSTATE': ''}
    
    subLink = BeautifulSoup(html,"html.parser")
    data['__VIEWSTATE'] = subLink.find('input',{'id':"__VIEWSTATE"})['value']
    
    r = requests.post(url,data)
    #利用BS函数对HTMl内容进行处理，具体请参照BS函数用法：http://beautifulsoup.readthedocs.io/zh_CN/latest/ 
    div_bf = BeautifulSoup(r.text,"html.parser")
    #获得html中class='typelist'的div部分
    div = div_bf.find_all('div', class_ = &#