爬取豆瓣电影Top250的全部数据并保存一下~

本文介绍如何使用Python爬虫技术抓取豆瓣电影Top250榜单的完整数据,并进行保存。通过这段代码,读者可以学习到网络爬虫的基本流程和Python相关库的使用。
摘要由CSDN通过智能技术生成

源代码:

# 	爬虫

### 1) 定义一个列表存放分析好的数据

```python
datalist = []
```

### 2) 处理url

因为豆瓣电影top250的URL要指定页面的参数baseURL = “https://movie.douban.com/top250?start=”,我们要指定start=后面的数值

```python
for i in range(0,10): #调用获取页面信息的函数,10次
     url = baseURL + str(i*25)
     html = askURL(url)  #保存获取到网页源码

```

### 3) 逐一解析数据

使用bs4.BeautifulSoup

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

```python
soup = bs4.BeautifulSoup(html, "html.parser") #解析html对象,并赋值给soup
```

### 4) 常见的使用方法

```python
print(soup.a)  # 拿到soup中的第一个a标签

print(soup.a.name) # 获取a标签的名称
 
print(soup.a.string)# 获取a标签的文本内容

print(soup.a.text)  # 获取a标签的文本内容

print(soup.a["href"])# 获取a标签的href属性的值
  
print(soup.a.get("href"))# 查找第一个a标签的href的属性
  
print(soup.a.attrs) 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值