Python爬取豌豆荚软件分类

最新推荐文章于 2024-08-24 11:00:06 发布

paul_luo88

最新推荐文章于 2024-08-24 11:00:06 发布

阅读量2.2k

点赞数 3

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_41832414/article/details/83114037

版权

本文介绍了使用Python爬取豌豆荚网站上不同软件分类及其下载量的方法，包括获取所有页签的URL，分析加载更多APP信息的规律，以及爬取APP名称、一级分类、二级分类和安装人数等数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python爬取豌豆荚软件分类以及下载量

一，查看网页
链接豌豆荚
红框内即为要爬取的元素

二，获取所有页签的地址：

#爬取豌豆荚

import requests
from bs4 import BeautifulSoup
import pandas as pd

#获取各个分类的url
data = requests.get('https://www.wandoujia.com/category/app')
s = BeautifulSoup(data.text, "html.parser")
divs = [li.div.find_all('a') for li in s.find_all('div')[4].find_all('ul')[0].find_all('li')]

urls_dict = {}
for i in range(len(divs)):
    #print(divs[i])
    for j in range(len(divs[i])):
        title = divs[i][j].attrs['title']
        url = divs[i][j].attrs['href']
        urls_dict[title] = url