一 背景
今天在github上看到的小项目,跑了一下可以跑通,于是当做练习题,参照源码学习三方模块与爬取思路,重新编译,源码见最下方。
二 使用模块
使用的核心模块:requests、BeautifulSoup、openpyxl
requests (请求头,模拟浏览器访问) .get(url,headers=?).content re (正则表达式) bs4.BeautifulSoup (解析html标签) BeautifulSoup().find('标签',attrs={'属性名':'属性值'}).get_text() BeautifulSoup().find_all('li') openpyxl.Workbook (在Python中设置excel) Workbook().active.title Workbook().save(filename=?) zip() (将可迭代的参数打包成元组,返回这些元组组成的对象)
豆瓣电影Top250链接:https://movie.douban.com/top250
项目源码github链接:https://github.com/injetlee/Python/blob/master/douban_movie.py