day11初次接触爬虫,从猫眼电影网获取数据

# 从内建模块 urllib 导入 request
from urllib import request
# 要访问https 协议的网站 要用到SSL
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# 导入正则表达式模块
import re

# 正则表达式规则:
#    * 代表 0~无限个字符
#    . 可以匹配 1个字符('\n'除外)
#    ? 惰性匹配
r = re.compile(r'<div class="movie-item-info">.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', re.S)


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"
}


url = "https://maoyan.com/board/4?offset=10"
# 向 url 指定的地址发送请求, 先用 request.Request 创建一个 Request 对象
req = request.Request(url=url, headers=headers)

# 用 request 模块的 urlopen 函数象url 地址发送请求
resp = request.urlopen(req)

# 通过 resp 对象得到 url 返回来的html
html = resp.read().decode()
print(html)  # 打印获取到的html
req_list = r.findall(html)

# 包爬取的数据,存入CSV 文件
with open("maoyan.csv", "a") as file:
    for a, b, c in req_list:
        file.write(a)
        file.write(',"')
        file.write(b.strip())
        file.write('",')
        file.write(c.strip())
        file.write('\n')





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值