# -*- coding:UTF-8 -*-
import requests
from bs4 import BeautifulSoup
import json
import urllib
import request
if __name__ == "__main__":
server = 'http://www.jit.edu.cn/'
url = 'http://www.jit.edu.cn/myNews_list_out.aspx?infotype=2'
#根据当前url获得网页回应
req = requests.get(url)
#print(req.text)
#获取回应中的HTML内容
html = req.text
data = {'__VIEWSTATE': ''}
subLink = BeautifulSoup(html,"html.parser")
data['__VIEWSTATE'] = subLink.find('input',{'id':"__VIEWSTATE"})['value']
r = requests.post(url,data)
#利用BS函数对HTMl内容进行处理,具体请参照BS函数用法:http://beautifulsoup.readthedocs.io/zh_CN/latest/
div_bf = BeautifulSoup(r.text,"html.parser")
#获得html中class='typelist'的div部分
div = div_bf.find_all('div', class_ = &#
爬取学校新闻网站信息
最新推荐文章于 2024-05-30 10:08:42 发布
本文介绍如何利用Python进行网络爬虫,针对学校官方网站的新闻页面进行数据抓取,涵盖了请求、解析及存储等步骤,帮助读者掌握基础的网络爬虫技能。
摘要由CSDN通过智能技术生成