最简单的爬虫

本文介绍了使用Python的requests和BeautifulSoup库爬取豆瓣电影排行榜的电影名称、上映时间和评分,并将数据保存到CSV文件的过程。通过正则表达式解析HTML内容,提取关键信息,实现数据的提取与存储。
摘要由CSDN通过智能技术生成
from urllib.request import urlopen
url='http://www.byhy.net/tut/auto/selenium/01/'
res=urlopen(url)
read=res.read()
print((read).decode('utf-8'))
with open('byhy.html',mode='w',encoding='utf-8') as f:
    f.write((read).decode('utf-8'))
print('over')

爬取豆瓣排行

import requests
url='https://movie.douban.com/j/chart/top_list'
header={

    "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}

parma={
    'type': '24',
    'interval_id': '100:90',
    'action': '',
    'start': '34',
    'limit': '20',
}
res=requests.get(url=url,params=parma,headers=header)
print(res.json())

res.close()

爬取电影名字和时间        .*?  并存到CSV文件中

import re
import requests
import csv
url='https://movie.douban.com/top250'
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
res=requests.get(url,headers=headers)
pg=res.text
print(pg)

obj=re.compile(r'<li>.*?<div class="item">.*? <span class="title">(?P<name>.*?)</span>.*?<br>(?P<name2>.*?)&.*?</p>'
               r'.*?<span class="rating_num" property="v:average">(?P<scores>.*?)</span>.*?<span>(?P<pingjia>.*?)</span>',re.S)
reslut=obj.finditer(pg)
f=open('data.csv',mode='w',encoding='utf-8')
csvwriter=csv.writer(f)

for it in reslut:
    # print(it.group('name'))
    # print(it.group('name2').strip())
    # print(it.group('scores').strip())
    # print(it.group('pingjia').strip())
    dic=it.groupdict()
    dic['name2']=dic['name2'].strip()
    csvwriter.writerow(dic.values())
f.close()
print('处理完毕')

处理结果:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值