爬取猫咪交易网

爬取猫咪品种,价格等在售数据

代码展现:d948b84c37b148fe85055137b613ddf8.png

4b599f03064d457ab97f3b39f21652a6.png 

具体代码:

import requests
import re
import os
filename = '声音//'
if not os.path.exists(filename):
    os.mkdir(filename)
def down_load(page):
    for page in range(page):
        page = page+1
        url = 'https://www.tosound.com/search/word-/page-'+str(page)
        headers = {'User-Agent':
                                       'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
                                   }
        response = requests.get(url=url,headers=headers)

        # print(response.text)
        href = re.findall('<div class="ui360 ui360-vis"><a href="(.*?)"></a></div>',response.text)
        title = re.findall('<a class="h6 text-white font-weight-bold" target="_blank" href=".*?" title="(.*?)">.*?',response.text)

        for href,title in zip(href,title):
            print(title,href)
            content = requests.get(url=href,headers=headers).content
            with open(filename+title+'.mp4',mode='wb') as f:
                f.write(content)
down_load(4)

结果展现:44b31ff4937544a59845609e9723a255.png

反思与总结:1.如何用正则匹配html中换行的数据,如fa0b77da78984403aafb21cbeedbb4be.png 

我想要匹配电话,却总是空,把上面的连在一起匹配,也是一样,是换行符的问题吗?

 2.像这种抓爬静态页面,零碎的信息,用css选择器更好!1ba3c96fcac849e59721e23cf066a866.png

3.这一案例属于两静态 页面抓取,信息都在页面代码中,抓包容易,难点在于如何解析数据。

 

  • 15
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力学习各种软件

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值