求助~不会正则和bs4一起使用

最新推荐文章于 2021-07-15 14:40:33 发布

he_kuang

最新推荐文章于 2021-07-15 14:40:33 发布

阅读量221

点赞数

分类专栏：求助文章标签： python 正则表达式 html

本文链接：https://blog.csdn.net/he_kuang/article/details/106218681

版权

求助专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了一个具体的爬虫项目实例，展示了如何使用Python的BeautifulSoup和正则表达式来抓取特定网站上的数据。文章详细解释了代码中各部分的功能，包括请求网页、解析HTML、提取所需信息等关键步骤。

摘要由CSDN通过智能技术生成

一个爬虫作业我想爬取link 里面的网站其他不要正则表达式规则写了
但是不知道如何把规则添加上去

#正则表达式规则
relink = re.compile(r'<td class="bz"><a href="(.*)">')
#需要正则表达式筛选的数据
link = item.find('td',class_="bz")

试过在link = item.find(‘td’,class_=“bz”)后面直接+.relink但是最终结果输出是无

完整代码

rom bs4 import BeautifulSoup
import requests
import sqlite3
import re

relink = re.compile(r'<td class="bz"><a href="(.*)">')

def main():
    url = 'https://www.usd-cny.com/'
    #seveDataDB
    city(url)
def city(url):
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36 Edg/81.0.416.58'    }
    html = requests.get(url,headers=headers)
    html.encoding = 'gb2312'
    soup = BeautifulSoup(html.text,'html.parser')
    tr = soup.find_all('tr')
    time = soup.p.string
    for item in tr[1:]:
        link = item.find('td',class_="bz")
        curr = item.find('a').string
        fbuy = item.find_all('td')[1].string
        cbuy = item.find_all('td')[2].string
        fsell = item.find_all('td')[3].string
        csell = item.find_all('td')[4].string
        print(link,curr,fbuy,cbuy,fsell,csell,time)

if __name__ == '__main__':
    main()