Python爬虫 -- 抓取电影

雅雅酱o

于 2024-06-05 17:02:26 发布

阅读量925

点赞数 16

文章标签： python 爬虫开发语言 pycharm

本文链接：https://blog.csdn.net/2201_76124692/article/details/139476887

版权

Python爬虫 -- 抓取电影

学习资源已打包，需要的小伙伴可以戳这里【学习资源】

看了几天的python语法，还是应该写个东西练练手。刚好假期里面看电影，于是有个想法，搞个爬虫把电影爬出来。做完花了两三个小时这么一个程序。反正蛮简单的，思路和之前用nodejs写爬虫一样。

爬虫的入口从分页的列表开始，是有规律的，所以就可以遍历所有的页面，分别抓取每页里面的影视资源，再进入每条电影的详情页面，抓取出下载地址，存到文件里。

技术上用的是requests 和 BeautifulSoup两个模块。

具体做法是，先从电影列表中定位每条资源中的IMDB(b)评分大于8分的资源，并且将结果放入movie对象中。

class Movie:

    def __init__(self, name, url, score, link):
        self.name = name
        self.url = url
        self.score = score
        self.link = link

    def __str__(self):
        return '%s,\t%s分,\t%s' % (self.name, self.score, self.link)

    __repr__ = __str__

# 过滤资源
def filterMovie(url):
    resultList = []
    soup = getSoup(url)
    tables = soup.find_all('table', class_='tbspan')
    for table in tables:
        nameA = table.find('a', text=re.compile("《"))
        td = table.find('td', text=re.compile("IMD"))
        if td is not None:
            scoreStr = re.findall(r"评分 (.+?)/10", td.text)
            if(len(scoreStr) > 0):
                try:
                    score = float(scoreStr[0])
                    if(score > 8):
                        name = nameA.text
                        url = site + nameA['href']
                        print('url:', url)
                        print('title:', name)
                        print('score:', score)
                        downloadLink = getDownloadLink(url)
                        movie = Movie(name, url, score, downloadLink)
                        resultList.append(movie)
                except:
                    print('error !!')
    return resultList

其中的getDownloanLink(url)是进入电影详情页获取下载链接。

def getDownloadLink(url):
    soup = getSoup(url)
    downloadTd = soup.find('td', attrs={"style": "WORD-WRAP: break-word"})
    downloadA = downloadTd.find('a')
    return downloadA['href']

然后是将电影信息存入到文件data.txt中。

def saveInfo(movieList):
    fileObj = open('data.txt', 'a')
    for movie in movieList:
        movie_str = str(movie)
        print('movie info:', movie_str)
        global lineNo
        fileObj.write('(' + str(lineNo) + ') ' + movie_str)
        fileObj.write('\n')
        fileObj.write('———————————')
        fileObj.write('\n')
        lineNo += 1
    fileObj.close()

经过上面的步骤，即可将某一页的电影资源抓取到，并且存入文件中。

程序的主入口，遍历列表即可。

if __name__ == '__main__':
    for index in range(156):
        index += 1
        url = 'http://www.ygdy8.net/html/gndy/oumei/list_7_' + \
            str(index) + '.html'
        getPageResource(url)

具体代码也已打包，有兴趣需要的小伙伴可以戳这里【学习资源】

雅雅酱o

关注

16
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫 -- 抓取电影

看了几天的python语法，还是应该写个东西练练手。刚好假期里面看电影，于是有个想法，搞个爬虫把电影爬出来。反正蛮简单的，思路和之前用nodejs写爬虫一样。爬虫的入口从分页的列表开始，是有规律的，所以就可以遍历所有的页面，分别抓取每页里面的影视资源，再进入每条电影的详情页面，抓取出下载地址，存到文件里。具体做法是，先从电影列表中定位每条资源中的IMDB(b)评分大于8分的资源，并且将结果放入movie对象中。经过上面的步骤，即可将某一页的电影资源抓取到，并且存入文件中。程序的主入口，遍历列表即可。
复制链接

扫一扫