豆瓣 TOP250

最新推荐文章于 2020-05-15 19:28:16 发布

make you shine

最新推荐文章于 2020-05-15 19:28:16 发布

阅读量237

点赞数

分类专栏：豆瓣爬虫文章标签：简单爬虫 python tkinter requests BeautifulSoup

本文链接：https://blog.csdn.net/qq_44299157/article/details/102518950

版权

……

文章目录

……

一，创建 DouBanFilmSpider.py

1.提供URL， HTTP request

urllib\requests\selenium

2.response, 解析，提取目标数据

re\Beautifulsoup\pyquery\xpath

3.保存

JSON\txt\csv\数据库\图片\视频

# 导入requests模块 和 BeautifulSoup模块
import requests
from bs4 import BeautifulSoup

# 豆瓣TOP250的url地址
url = 'https://movie.douban.com/top250'

# 所有1-10页的url地址组成的列表
url_list = ['https://movie.douban.com/top250?start=%d&filter=' % i for i in range(0, 226, 25)]

# 无法解析的特殊字符列表
unrecognized_charList = [u'\xa0',u'\xf4',u'\xee',u'\xf6',u'\u0161',u'\xfb',u'\xe5']

class Spider:
    __unrecognized_charList = (u'\xa0', u'\xf4', u'\xee', u'\xf6', u'\u0161', u'\xfb', u'\xe5', u'\u22ef')

    def __init__(self, url=None, url_list=None):
        self.__titles = []	# 电影标题
        self.__comments = []	# 电影影评
        self.__details = []		#电影详细内容（导演和年份等）
        if url and not url_list:	# 如果只传了一个url地址
            self.get_contents(url)	# 调用函数
        elif url_list:				# 如果传了一个url列表
            for url in url_list:
                self.get_contents(url)

    def get_contents(self, url):
    	# 首先解析，然后查找ol元素里面的li列表，得到电影列表
        self.__movie_list = BeautifulSoup(requests.get(url).text, 'html.parser').find('ol').find_all('li')
        
        for movie in self.__movie_list:
        	# 继续查找span标签，class为title的元素，并获取内容，去掉右侧\n，添加到__titles列表中
            self.__titles.append

最低0.47元/天解锁文章

make you shine

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
豆瓣 TOP250

……文章目录一，创建 DouBanFilmSpider.py1.提供URL， HTTP request2.response, 解析，提取目标数据3.保存二，创建myApplication.py1.添加代码2.myApplication.py的运行效果……一，创建 DouBanFilmSpider.py1.提供URL， HTTP requesturllib\requests\seleniu...
复制链接

扫一扫