从零打造视频播放网站(1)-数据采集篇

最新推荐文章于 2024-07-20 15:51:57 发布

置顶

蒝莱茹茈

最新推荐文章于 2024-07-20 15:51:57 发布

阅读量5.1k

点赞数 2

分类专栏：爬虫文章标签： python scrapy 爬虫视频

本文链接：https://blog.csdn.net/qq_40077167/article/details/90520630

版权

本文介绍如何从零开始打造一个视频播放网站的数据采集系统，涉及数据库设计、环境配置、Scrapy爬虫创建、增量式爬虫实现及启动步骤。重点使用Python 3.6.6、Scrapy、Scrapy-Redis、requests库，存储数据采用MySQL和Redis。

摘要由CSDN通过智能技术生成

数据采集篇

1.数据库设计:

source表(播放源):

id	name	desc	parse	show
自增id	播放源名称	播放源描述	解析url	展示名

在这里插入图片描述

video表:

id	title	desc	type	area	thumb	year	director	introduction	actors
视频id	视频名称	视频描述	类型(1:电影,2:电视剧,3:综艺,4:动漫)	地区	缩略图	年份	导演	简介	演员

在这里插入图片描述

play表:

id	video_id	from	url	part
自增id	视频id(与video.id关联)	播放源名称(与source.name关联)	播放地址	集数

在这里插入图片描述

2.环境:

python 3.6.6
所用模块:

scrapy:编写爬虫
scrapy-redis:与scrapy结合实现增量式爬虫
requests:发送post,get请求

windows7系统
mysql数据库:存储数据
redis数据库

3.创建项目:

scrapy startproject project_name

4. settings.py

LOG_LEVEL="WARNING"
USER_AGENT="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'Scrapy_www_vultr1_com (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

5.爬虫编写:

初始化(连接数据库):

    def __init__(self):
        dict = {
   }
        dict["host"] = self.MYSQL_HOST
        dict["port"] = self.MYSQL_PORT
        dict["user"] = self.MYSQL_USER
        dict["passwd"] = self.MYSQL_PWD
        dict["db"] = self.MYSQL_DB
        dict["use_unicode"]=True
        dict["charset"]="utf8"
        self.db = MySQLdb.connect(**dict)
        #self.playerconfig()

处理响应:

    def parse(self, response):
        href_list = response.xpath("//ul[@class='stui-header__menu type-slide']/li/a/@href")[1:-1]
        for href in href_list:
            _type=re.search(r"v/(\d*).html",href.get()).group(1)
            yield scrapy.Request(self.domain+href.get(),callback