基础爬虫:
1.爬取目标是豆瓣top250
https://movie.douban.com/top250?start=0&filter=
只要电影的名字
涉及知识:
python基础(文件操作,字符串拼接,for和while循环 )
requests库的基础使用
re库的使用
代码:
import requests
import re
url = "https://movie.douban.com/top250"
start_num = 0
while start_num<=225:
#拼接url
parameter = "?start=%d&filter=" % start_num
new_url = url + parameter
#爬取当前页面
data = requests.get(new_url).text
#使用re库进行匹配
res = r'.*? <img width="100" alt="(.*?)" src="'
resa = re.findall(res,data,re.S)
#增加25,结合“拼接url”达到类似下一页的功能
start_num = start_num+25
print(resa) #这步用于自检
print(new_url) #这步用于自检
#输出到3.txt文件当中
f = open('3.txt','a')
for a in resa:
f.write(a+'\n')
输出结果:
shell内容:
文件内容: