python爬取豆瓣top250电影名称_Python--爬取豆瓣TOP250电影信息

最新推荐文章于 2023-09-26 12:04:57 发布

weixin_39610807

最新推荐文章于 2023-09-26 12:04:57 发布

阅读量755

点赞数

文章标签： python爬取豆瓣top250电影名称

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39610807/article/details/111455842

版权

本文介绍了使用Python爬虫爬取豆瓣TOP250电影的详细信息，包括电影链接、剧情简介等，并将数据存储到MySQL数据库中，通过多线程实现高效爬取。

摘要由CSDN通过智能技术生成

本文仅限技术研究与讨论，严禁用于非法用途，否则产生的一切后果自行承担

起因

最近在生产实习，要求自己找一个网站爬一下存储数据到excel表格中

我看电影也是按豆瓣TOP250来筛选的，手动翻页太麻烦，于是爬一下

[2019-09-02更新]后面要做作业答辩，改为存储到mysql数据库中

代码实现

和网上大部分爬取的文章不同，我想要的是每部电影的剧情简介信息

所以需要先获取每部电影的链接,再单独爬取每部电影

全部代码如下：# -*- coding: utf-8 -*-

'''

@author: soapffz

@fucntion: 豆瓣TOP250电影信息爬取并存储到mysql数据库(多线程)

@time: 2019-09-01

'''

import requests

from fake_useragent import UserAgent

from lxml import etree

from tqdm import tqdm

import threading

import pymysql

from re import split

"""

提示库找不到可复制以下语句解决

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fake_useragent

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tqdm

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple threading

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pymysql

"""

class Top250(object):

def __init__(self):

ua = UserAgent() # 用于生成User-Agent

self.headers = {"User-Agent": ua.random} # 获得一个随机的User-Agent

self.bangdang_l = [] # 存储榜单的页面

self.subject_url_l = [] # 存储每部电影的链接

self.connect_mysql()

def connect_mysql(self):

# 连接数据库,密码后面可以加数据库名称

try:

self.mysql_conn = pymysql.connect(

'localhost', 'root', 'root', charset='utf8')

# 得到一个可以执行SQL语句的光标对象，执行完毕返回的结果默认以元组显示

self.cursor = self.mysql_co

最低0.47元/天解锁文章

weixin_39610807

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬取豆瓣top250电影名称_Python--爬取豆瓣TOP250电影信息

本文仅限技术研究与讨论，严禁用于非法用途，否则产生的一切后果自行承担起因最近在生产实习，要求自己找一个网站爬一下存储数据到excel表格中我看电影也是按豆瓣TOP250来筛选的，手动翻页太麻烦，于是爬一下[2019-09-02更新]后面要做作业答辩，改为存储到mysql数据库中代码实现和网上大部分爬取的文章不同，我想要的是每部电影的剧情简介信息所以需要先获取每部电影的链接,再单独爬取每部电影全部代...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。