一、库的导入
from urllib.request import urlopen
from bs4 import BeautifulSoup
from urllib import parse
import requests
二、新闻标题的爬取
html = urlopen("http://xgxy.hbue.edu.cn/")#打开所需爬取的页面
bs = BeautifulSoup(html,'html.parser')#用BeautifulSoup解析网页
p1 = bs.findAll('div',{'class':'news_tit'})#找到新闻标题的所在标签名称
for each in p1:
titles = each.select('a')[0]['title']#即a标签下的title
print(titles)
三、爬取新闻的内容
page_url = "http://xgxy.hbue.edu.cn/"
news_full_urls = []
p1 = bs.findAll('div',{'class':'news_tit'})
#爬取新闻内容的链接
for each