豆瓣top250简易爬虫

最新推荐文章于 2024-03-15 07:49:35 发布

冀文华

最新推荐文章于 2024-03-15 07:49:35 发布

阅读量317

点赞数

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/Jobj1/article/details/99696567

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基础爬虫：

1.爬取目标是豆瓣top250
https://movie.douban.com/top250?start=0&filter=
只要电影的名字
在这里插入图片描述

涉及知识：

python基础（文件操作，字符串拼接，for和while循环）
requests库的基础使用
re库的使用

代码：

import requests
import re

url = "https://movie.douban.com/top250"
start_num = 0

while start_num<=225:

	#拼接url
    parameter = "?start=%d&filter=" % start_num
    new_url = url + parameter
    
    #爬取当前页面
    data = requests.get(new_url).text
    
    #使用re库进行匹配
    res = r'.*? <img width="100" alt="(.*?)" src="'
    resa = re.findall(res,data,re.S)
    
    #增加25，结合“拼接url”达到类似下一页的功能
    start_num = start_num+25
    
    print(resa)				#这步用于自检
    print(new_url)			#这步用于自检

#输出到3.txt文件当中
    f = open('3.txt','a')
    for a in resa:
        f.write(a+'\n')