今天看到求职有家公司写到需要爬取各大直播平台信息,我就先小试牛刀一下,爬取了虎牙直播的这四个分类图片,应该已经是全站的分类了,并且按游戏名命名,存入在不同的文件夹。可能代码需要一些优化,但是我目前只能做到这里,代码写的还算正常。
在判断怎么写入文件,并分类区分如何存入,我想了半天,只好用i =1,2,3,4,传入,应该有更好的判断方法,有看到的朋友可以留言,学习一下。
第二步:附上代码
# -*- coding: utf-8 -*-
import os
import random
import time
from lxml import etree
import requests
class HuYaSpider(object):
def __init__(self):
self.url_list = ["https://www.huya.com/g_ol",
"https://www.huya.com/g_pc",
"https://www.huya.com/g_yl",
"https://www.huya.com/g_sy"]
self.domain = "https://www.huya.com/g_sy"
self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM