豆瓣电影排行python爬虫实战（刚开始学习）

最新推荐文章于 2023-05-19 11:45:21 发布

Grence_L

最新推荐文章于 2023-05-19 11:45:21 发布

阅读量485

点赞数

分类专栏： python爬虫文章标签：爬虫豆瓣

本文链接：https://blog.csdn.net/qq_40879809/article/details/80034468

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

作为一名刚学了几天的新手在这里只使用了request 和 re 库

分析网页 https://movie.douban.com/top250?start=0&filter= 注意 start 每次下一页就会+25

正则：观察网页源代码得到

电影名 titlepat = 'class="">.*?(.*?)'

人数 countpat = '(.*?)人评价'

评分 gradepat = ' (.*?)'

短评 briefcommentpat = '(.*?)'

对于向文件的存取有很多不足之处没有进行很深的了解若有好的建议求大牛指教

以下是源码：

import requests
import re

def geturl(url):
    headers = {'User-Agent':'Mozilla/50'}
    r = requests.get(url,headers=headers)
    r.encoding = r.apparent_encoding
    return r.text

def getdata(url):
    data = geturl(url)
    titlepat = 'class="">.*?<span class="title">(.*?)</span>'
    countpat = '<span>(.*?)人评价</span>'
    gradepat = ' <span class="rating_num" property="v:average">(.*?)</span>'
    briefcommentpat = '<span class="inq">(.*?)</span>'
    titles = re.compile(titlepat,re.S).findall(data)
    counts = re.compile(countpat).findall(data)
    grades = re.compile(gradepat).findall(data)
    briefcomments = re.compile(briefcommentpat).findall(data)
    print(titles)
    print(counts)
    print(grades)
    print(briefcomments)
    f = open("豆瓣电影排名.txt", 'a')
    for i in range(0,len(briefcomments)):
        f.write('名称:'+titles[i]+'\t')
        f.write('评分:'+grades[i] + '\t')
        f.write('人数:'+counts[i] + '\n')
        f.write(briefcomments[i] + '\n')
    f.close()

if '__main__'==__name__:
    page=0
    while page<=225:
        print(page)
        url = "https://movie.douban.com/top250?start="+str(page)
        getdata(url)
        page+=25

Grence_L

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
豆瓣电影排行python爬虫实战（刚开始学习）

作为一名刚学了几天的新手在这里只使用了request 和 re 库分析网页 https://movie.douban.com/top250?start=0&amp;filter= 注意 start 每次下一页就会+25正则：观察网页源代码得到电影名 titlepat = 'class=""&gt;.*?&lt;span class="title"&gt;(.*?)&lt;/span...
复制链接

扫一扫