练习:抓取豆瓣电影Top250

一 背景

    今天在github上看到的小项目,跑了一下可以跑通,于是当做练习题,参照源码学习三方模块与爬取思路,重新编译,源码见最下方。

 

二 使用模块

    使用的核心模块:requests、BeautifulSoup、openpyxl

requests    (请求头,模拟浏览器访问)
    .get(url,headers=?).content

re  (正则表达式)

bs4.BeautifulSoup   (解析html标签)
    BeautifulSoup().find('标签',attrs={'属性名':'属性值'}).get_text()
    BeautifulSoup().find_all('li')

openpyxl.Workbook   (在Python中设置excel)
    Workbook().active.title
    Workbook().save(filename=?)

zip()   (将可迭代的参数打包成元组,返回这些元组组成的对象)

豆瓣电影Top250链接:https://movie.douban.com/top250

项目源码github链接:https://github.com/injetlee/Python/blob/master/douban_movie.py

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dianepure

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值