python3[爬虫基础入门实战] 爬取豆瓣电影排行top250

最新推荐文章于 2024-08-20 14:41:57 发布

徐代龙

最新推荐文章于 2024-08-20 14:41:57 发布

阅读量6.8k

点赞数 5

分类专栏： python 文章标签： python 豆瓣爬虫排行

本文链接：https://blog.csdn.net/snake_son/article/details/73696709

版权

本文介绍了使用Python3进行爬虫的基础入门，通过正则表达式抓取豆瓣电影Top250的数据。在过程中遇到正则匹配问题，采用线程爬取静态HTML页面。大部分时间用于构建GUI，学习了正则简单应用、集合操作和数据整合。虽然目前只是初步入门，但已对Python3不再陌生，为后续深入学习打下基础。

摘要由CSDN通过智能技术生成

先来张爬取结果的截图

爬取豆瓣结果

再来份代码吧

# encoding=utf8
import requests
import re
from bs4 import BeautifulSoup
from tkinter import scrolledtext  # 导入滚动文本框的模块

from tkinter import ttk
import tkinter as tk

import threading


# 获取网页内容
def getHtml(ID):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % ID
    print('url  ' + url)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2372.400 QQBrowser/9.5.10548.400'
        ,
        'Cookie': 'bid=I0klBiKF3nQ; ll="118277"; gr_user_id=ffdf2f63-ec37-49b5-99e8-0e0d28741172; ap=1; _vwo_uuid_v2=8C5B24903B1D1D3886FE478B91C5DE97|7eac18658e7fecbbf3798b88cfcf6113; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1498305874%2C%22https%3A%2F%2Fbook.douban.com%2Ftag%2F%25E9%259A%258F%25E7%25AC%2594%3Fstart%3D20%26type%3DT%22%5D; _pk_id.100001.4cf6=4e61f4192b9486a8.1485672092.5.1498306809.1498235389.; _pk_ses.100001.4cf6=*'

    }
    req = requests.get(url, headers)
    return req.text


# 解析网页并且获取相应内容
def parseHtml(html):