36.python爬虫 电影

import requests
from lxml import etree
import time
import random
import pandas as pd

def get_detail_urls(url,HEADERS):
    resp = requests.get(url,headers=HEADERS)
    text = resp.content.decode('gbk',errors='ignore')
    html = etree.HTML(text)

    detail_url = html.xpath("//table[@class='tbspan']//a/@href")
    detail_url_1 = html.xpath("//table[@class='tbspan']//a/text()")
    detail_url_2 = []
    for i in range(len(detail_url)):
        detail_url_2.append('http://www.ygdy8.net' + detail_url[i])

    data = pd.DataFrame({'film_name':detail_url_1,'detail_url':detail_url_2})
    data.to_csv('film.csv', index=False, sep=';', mode='a', header=False)


HEADERS = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

for i in range(1,100):
    url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html'.format(i)
    time.sleep(random.random())
    print('第{}页'.format(i))
    get_detail_urls(url, HEADERS)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值