用requests和BeautifulSoup爬取静态网页

最新推荐文章于 2023-12-10 21:47:05 发布

XQLR

最新推荐文章于 2023-12-10 21:47:05 发布

阅读量332

点赞数 2

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/sgsdsdd/article/details/109325059

版权

用requests和BeautifulSoup爬取静态网页

一、案例说明

本案例使用requests和BeautifulSoup爬取湖北经济学院经院要闻的前2页新闻标题、日期、发布者、内容
二、爬虫思路
首先找到网址（http://news.hbue.edu.cn/jyyw/list.htm）的页面，右键“检查”，显示出开发者模式

发现每页的新闻网址都为（http://news.hbue.edu.cn/jyyw/list+数字.htm），所以可以根据这个信息来爬取不同的新闻网页

发现每页新闻的网址都在span class="Article_Title"中，，所以可以根据这个信息来爬取不同的新闻网页信息
三、代码

import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
import re
def getnews(newurl):
    html = requests.get(newurl)
    bs = BeautifulSoup(html.content,'lxml&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

XQLR

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用requests和BeautifulSoup爬取静态网页

用requests和BeautifulSoup爬取静态网页一、案例说明本案例使用requests和BeautifulSoup爬取湖北经济学院经院要闻的前2页新闻标题、日期、发布者、内容二、爬虫思路首先找到网址（http://news.hbue.edu.cn/jyyw/list.htm）的页面，右键“检查”，显示出开发者模式发现每页的新闻网址都为（http://news.hbue.edu.cn/jyyw/list+数字.htm），所以可以根据这个信息来爬取不同的新闻网页发现每页新闻的网址都在spa
复制链接

扫一扫