从零打造视频播放网站(1)-数据采集篇

本文介绍如何从零开始打造一个视频播放网站的数据采集系统,涉及数据库设计、环境配置、Scrapy爬虫创建、增量式爬虫实现及启动步骤。重点使用Python 3.6.6、Scrapy、Scrapy-Redis、requests库,存储数据采用MySQL和Redis。
摘要由CSDN通过智能技术生成

1.数据库设计:

source表(播放源):

id name desc parse show
自增id 播放源名称 播放源描述 解析url 展示名

在这里插入图片描述

video表:

id title desc type area thumb year director introduction actors
视频id 视频名称 视频描述 类型(1:电影,2:电视剧,3:综艺,4:动漫) 地区 缩略图 年份 导演 简介 演员

在这里插入图片描述

play表:

id video_id from url part
自增id 视频id(与video.id关联) 播放源名称(与source.name关联) 播放地址 集数

在这里插入图片描述

2.环境:

  • python 3.6.6
  • 所用模块:
  1. scrapy:编写爬虫
  2. scrapy-redis:与scrapy结合实现增量式爬虫
  3. requests:发送post,get请求
  • windows7系统
  • mysql数据库:存储数据
  • redis数据库

3.创建项目:

scrapy startproject project_name

4. settings.py

LOG_LEVEL="WARNING"
USER_AGENT="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'Scrapy_www_vultr1_com (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False


5.爬虫编写:

初始化(连接数据库):

    def __init__(self):
        dict = {
   }
        dict["host"] = self.MYSQL_HOST
        dict["port"] = self.MYSQL_PORT
        dict["user"] = self.MYSQL_USER
        dict["passwd"] = self.MYSQL_PWD
        dict["db"] = self.MYSQL_DB
        dict["use_unicode"]=True
        dict["charset"]="utf8"
        self.db = MySQLdb.connect(**dict)
        #self.playerconfig()

处理响应:

    def parse(self, response):
        href_list = response.xpath("//ul[@class='stui-header__menu type-slide']/li/a/@href")[1:-1]
        for href in href_list:
            _type=re.search(r"v/(\d*).html",href.get()).group(1)
            yield scrapy.Request(self.domain+href.get(),callback
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值