Python 爬虫练习--- requests+beautifulSoup+re

最新推荐文章于 2024-03-28 15:00:00 发布

Tina_053

最新推荐文章于 2024-03-28 15:00:00 发布

阅读量549

点赞数 1

分类专栏： Python_爬虫初级

本文链接：https://blog.csdn.net/weixin_42983055/article/details/84860525

版权

本文介绍了使用Python的requests库抓取网页内容，结合BeautifulSoup进行解析，再利用正则表达式(re)处理数据，详细阐述了如何爬取某互联网公司的投资产品信息。

摘要由CSDN通过智能技术生成

爬取某互联网公司网站的投资产品信息：https://member.niwodai.com/portal/inteBid/inteBidPage.do
首先解析网站结构：
在这里插入图片描述

在这里插入图片描述

经过上述的网页源代码解析，下面是是实现的具体步骤：

import requests
from requests import RequestException
import re

headers = {'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}


def get_html():
    response = requests.get('https://member.niwodai.com/portal/inteBid/inteBidPage.do', headers = headers)
    try:
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Tina_053

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Python 爬虫练习--- requests+beautifulSoup+re

爬取某互联网公司网站的投资产品信息：https://member.niwodai.com/portal/inteBid/inteBidPage.do首先解析网站结构：经过上述的网页源代码解析，下面是是实现的具体步骤：import requestsfrom requests import RequestExceptionimport reheaders = {'User-Agent...
复制链接

扫一扫