源代码:
# 爬虫
### 1) 定义一个列表存放分析好的数据
```python
datalist = []
```
### 2) 处理url
因为豆瓣电影top250的URL要指定页面的参数baseURL = “https://movie.douban.com/top250?start=”,我们要指定start=后面的数值
```python
for i in range(0,10): #调用获取页面信息的函数,10次
url = baseURL + str(i*25)
html = askURL(url) #保存获取到网页源码
```
### 3) 逐一解析数据
使用bs4.BeautifulSoup
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
```python
soup = bs4.BeautifulSoup(html, "html.parser") #解析html对象,并赋值给soup
```
### 4) 常见的使用方法
```python
print(soup.a) # 拿到soup中的第一个a标签
print(soup.a.name) # 获取a标签的名称
print(soup.a.string)# 获取a标签的文本内容
print(soup.a.text) # 获取a标签的文本内容
print(soup.a["href"])# 获取a标签的href属性的值
print(soup.a.get("href"))# 查找第一个a标签的href的属性
print(soup.a.attrs)