极简爬虫:Python学习笔记

爬取豆瓣电影排名Top250

一、爬虫四大步骤:

1.获取页面源代码

2.获取标签

3.正则表达式

4.输出数据

二、源代码:

import requests
from bs4 import BeautifulSoup

# 确定要爬取的网址
url = 'https://movie.douban.com/top250'

# 确定请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                         'AppleWebKit/537.36 (KHTML, like Gecko)'
                         'Chrome/80.0.3987.132 Safari/537.36','Host':'movie.douban.com'}

# 从网页获取数据
r = requests.get(url,headers = headers)

# 解析获得的网页数据
soup = BeautifulSoup(r.text,"html.parser")

# 初始化一个列表,用来存放电影的名字
movie_list = []

# 定位需要的内容
m_list = soup.findAll("div", {'class': 'hd'})

# 遍历m_list
for m in m_list:
    movie = m.a.span.text #解析得到我们需要的电影的名字
    movie_list.append(movie)    # 将电影的名字添加到列表中

# 换行输出
for i in movie_list:
    print(i)

三、详细说明

编写爬虫的库有很多,本文只需要用到两个:requests 和 BeautifulSoup4;

1. 获取整个网页的数据:r是requests的Response回复对象,从中可以获取需要的信息,r.text是网页内容。

# 从网页获取数据
r = requests.get(url,headers = headers)

使用requests的headers可以伪装成浏览器访问获取页面源代码;

2.获取标签,通过BeautifulSoup进一步解析页面源代码,并且通过标签定位需要的内容

# 解析获得的网页数据
soup = BeautifulSoup(r.text,"html.parser")

# 定位需要的内容
m_list = soup.findAll("div", {'class': 'hd'})

3.正则表达式

本文分析情况比较简单,并未使用正则表达式;

4.输出数据,将得到的数据输出。同样可以保存到数据库或者写入文件。

运行环境:Python 3.7

参考地址:

1. 最简单的Python爬虫,仅3步11行代码爬取豆瓣电影排名

2. Python爬虫入门笔记

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值