爬虫01-requests的基本用法

1.发送请求,获取响应

# step1:请求地址
url = 'https://movie.douban.com/top250'
# step2:请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
    'cookie': 'xxxxxx'
}

User-Agent:在网页面前假装我是浏览器。例如豆瓣需要用

cookie:登录之后生成的,告诉网页我是用户。例如知乎需要用

# 获取响应
response = requests.get(url, headers=headers)
# 200:成功
if response.status_code == 200:
    print(response.text)
else:
    print('请求失败!', response)

2.正则表达式匹配电影名称

贪婪匹配:是指在整个正则表达式匹配成功的前提下,尽可能多的匹配。正则表达式默认的匹配方式是贪婪匹配,即尽可能多的匹配。

懒惰匹配/惰性匹配:是指在整个表达式匹配成功的前提下,尽可能少的匹配。

# 爬取电影名字和评分
import re
import time
import random
import bs4
import requests

# 获取电影标题的正则表达式
pattern = re.compile(r'<span class="title">(.+?)</span>')
for page in range(1): # 一页
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={page * 25}',
        headers={
            'User-Agent': 'http://piping.mogumiao.com/proxy/api/get_ip_bs?appKey=3ee6f035175f4b508d8a825da0fb3833&count=4&expiryDate=0&format=2&newLine=3'
        }
    )
    print(resp.status_code)
    if resp.status_code == 200:
        soup = bs4.BeautifulSoup(resp.text, 'html.parser')
        # nth-child(1)--- a标签的span里第一个孩子的元素
        title_span_list = soup.select('div.info>div.hd>a>span:nth-child(1)')
        rating_span_list = soup.select('div.info>div.bd>div>span.rating_num')
        # 以txt的方式写入文件,格式: xx:xx
        with open('movie_data.txt','w' ,encoding='utf-8_sig')as file:   
            for title_span, rating_span in zip(title_span_list, rating_span_list):
                file.write(f'{title_span.text}:{rating_span.text}\n')
    time.sleep(random.randint(3, 5))

3. 用CSV保存文件

CSV - Comma Seperate Value

with open('movie_data.csv','w', newline='')as file:
    writer = csv.writer(file)
    # 有一个参数。dilimiter,如果writer = csv.writer(file,dilimiter='#')
    # 就表示分隔符是’#‘,而不是‘,’
    writer.writerow(['标题','评分'])
    for title_span, rating_span in zip(title_span_list, rating_span_list):
        writer.writerow([title_span.text,rating_span.text])

_list):
writer.writerow([title_span.text,rating_span.text])



  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值