用requests和BeautifulSoup爬取静态网页
一、案例说明
本案例使用requests和BeautifulSoup爬取湖北经济学院经院要闻的前2页新闻标题、日期、发布者、内容
二、爬虫思路
首先找到网址(http://news.hbue.edu.cn/jyyw/list.htm)的页面,右键“检查”,显示出开发者模式
发现每页的新闻网址都为(http://news.hbue.edu.cn/jyyw/list+数字.htm),所以可以根据这个信息来爬取不同的新闻网页
发现每页新闻的网址都在span class="Article_Title"中,,所以可以根据这个信息来爬取不同的新闻网页信息
三、代码
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
import re
def getnews(newurl):
html = requests.get(newurl)
bs = BeautifulSoup(html.content,'lxml&