怕怕爬爬虫子

# 案例分析:

# 抓取豆瓣电影top250整个网页requests# 提取电影名称、评分、年份、多少人评价re# 扩展:文件写入csv中 import requests import re import csv

# 步骤一:抓取网页

url = "https://movie.douban.com/top250" headers = {

"User-Agent":"Mozilla/5.0(Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36"

requ = requests.get(url,headers=headers)# print(requ.text)# 步骤二 提取数据

page_content = requ.text# 解析数据

obj= re.compile(r'<li>.*?<span

class="title">(?P<name>.*?)</span>.*?<br>(?P<year>.*?)&nbsp.*?'

r'<span class="rating_num" property="v:average">' r'(?P<score>.*?)</span>.*?'

r'<span>(?P<num>.*?)人评价</span>',re.S)

result = obj.finditer(page_content)# 扩展:写入文件中

f = open("data.csv",mode="w") csvwriter = csv.writer(f) for it in result:

# print(it.group("name"))

# print(it.group("year").strip())# print(it.group("score"))# print(it.group("num")) dic = it.groupdict()

dic['year'] = dic['year'].strip() csvwriter.writerow(dic.values()) f.close() requ.close() print("over!")

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值