本文写作目的是为了了解一下爬虫的原理,好了,新手的我,要开始了!!!!
案例一 爬取豆瓣评分最高250部电影
本次爬虫分为以下步骤:
(1)环境搭建
(2)代码解释
(3)得到结果
(1)环境搭建:
需要的环境有: pycharm + 库 requests + 库 bs4
1.对于pycharm安装大家自行百度,这里介绍一下 库的安装!
2.打开pycharm,按图片顺序操作如下:
这里补充一下:第三步是点击 “+”,然后最好你先创建好工程+python文件
(2)代码解释
到目前位置,我们需要的环境就搭建好了,现在我们可以把代码放进去了。代码如下:
import requests #导入requests包
import bs4
res=requests.get('https://movie.douban.com/top250',headers={'user-agent':'Mozilla/5.0'})
soup = bs4.BeautifulSoup(res.text, "html.parser")
targets = soup.find_all("div", class_="hd")
for each in targets:
print(each.a.span.text)
代码解释:
(1)(2)行是 调用库
(3)利用 requests 库读取 网址数据,后面的headers是进行防伪,简单理解为豆瓣有防爬取,我们加这句是为了反防爬取
(4)利用 bs4 调用 BeautifulSoup 把读取的 res文档读取为 文档对象,后面那个是默认参数
(5)查找标签“div”,类型为class “hd”
(6)通过一个 for循环遍历
(7)因为名字在 a span 里面的一个文档
(3)得到结果