爬取豌豆荚

'''
爬取豌豆荚APP数据
url:https://www.wandoujia.com/category/6001
data:
名称、详情页、下载人数、APP大小
app_name
detail_url
download_num
app_size
<a href="" title="" class="">(.*?)</a>.*?<span class="">(.*?)</span>.*?<span title="">(.*?)</span><div class="comment"> (.*?)</div>
'''
import requests
import re


# 1.发送请求
def get_page(url):
response=requests.get(url)
return response


def parse_index(html):
movie_list=re.findall('<h2 class="app-title-h2"><a href="(.*?)" title="(.*?)" class="name">.*?</a>.*?<span class="install-count">(.*?)万人安装</span> <span class="dot">・</span> <span title="(.*?)">.*?MB</span>',
html,
re.S)
return movie_list

# 保持数据
def save_data(movie):
detail_url,app_name,download_num,app_size=movie
data=f'''
游戏名称:{app_name}
详情页url:{detail_url}
下载人数:{download_num}万人
APP大小:{app_size}
\n
\n
'''
print(data)
with open('wandoujia.text','a',encoding='utf-8')as f:
f.write(data)

# print("写入成功!")

if __name__ == '__main__':
url=f'https://www.wandoujia.com/category/6001'
print(url)

index_res=get_page(url)

movie_list=parse_index(index_res.text)

for movie in movie_list:
save_data(movie)


转载于:https://www.cnblogs.com/2328322824chx/p/11129387.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值