python 爬虫豆瓣韩国电影

最新推荐文章于 2024-05-02 07:00:29 发布

learn_is_happy

最新推荐文章于 2024-05-02 07:00:29 发布

阅读量496

点赞数

本文链接：https://blog.csdn.net/learn_is_happy/article/details/78817492

版权

学习笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

import requests
from bs4 import BeautifulSoup
import bs4
import re
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def fillUnivList(ulist,rlist,html):
    count=0
    soup = BeautifulSoup(html,"html.parser")
    for tg in soup.find_all("div",attrs ={"class":"pl2"}):

        name = tg.find("a")
        ulist.append(name.text.split()[0])

        if tg.find_all("span",attrs={"class":"rating_nums"}):
            rate = tg.find("span",attrs={"class":"rating_nums"})
            rlist.append(rate.text)
        else:
            rlist.append("无评价")

        print ("{}  :   {}".format(ulist[count],rlist[count]))
        count+=1





def main():
    sumz=0
    lst=[]
    while sumz<=980:
        lst.append(sumz)
        sumz=sumz+20
    for n in lst:
        uinfo = []
        rinfo=[]
        url = "https://movie.douban.com/tag/%E9%9F%A9%E5%9B%BD?start="+str(n)+"&type=S"
        html = getHTMLText(url)
        fillUnivList(uinfo,rinfo, html)



main()