Python爬虫 爬取豆瓣电影(一)

这次先进行简单的爬取,获取一定数量的电影url、id等信息。为下次项目做铺垫
(请大家在爬取信息时控制循环的次数!!!)

代理ip的设置,请看:https://blog.csdn.net/az9996/article/details/85094193
请求头设置请看,请看:https://blog.csdn.net/az9996/article/details/85094462

这里直接写成函数形式,方便以后的项目调用

为函数传递一个参数,用来控制要爬取的页数

#number为页面的页数,默认为第一页。页面加一,number+20···
def get_movie_url(number=20):
    page = 0
    filename='movie_url.txt'
    file_operation.make_empty_file(filename)
    while(page!=number):
        proxies_support = urllib.request.ProxyHandler(request_body.get_proxy())
        opener = urllib.request.build_opener(proxies_support)
        urllib.request.install_opener(opener)  # 将代理Ip设置到全局

        url = 'https://movie.douban.com/j/search_subjects?type=movie&' \
              'tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=' + str(page)
        headers = request_body.get_header()
        res = request.Request(url,headers=headers)
        req = request.urlopen(res,timeout=0.5).read().decode("utf8")
        js = json.loads(req)
        url = ''
        for subjects in js['subjects']:
            url = url + subjects['url'] +'\n'
        #print(url)
        #将爬取到的数据写入本地
        with open(filename, 'a', encoding='utf-8') as file_obj:
            file_obj.writelines(url)
            file_obj.write('\n')
        page=page+20

这次我仅将电影url写入到本地的txt文件。
在这里插入图片描述
在这里插入图片描述

下一个项目:https://blog.csdn.net/az9996/article/details/85094604

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值