爬取电影天堂电影信息

思路:使用requests库获取网页源代码,使用BeautifulSoup解析网页源代码,然后使用css选择器获取数据


源代码:

import requests
from bs4 import BeautifulSoup

def get_pages(url):
    """
    获取网页源代码
    """
    response = requests.get(url)
    content = response.text.encode('iso-8859-1').decode('gbk')#获取网页源代码并编码转换
    return content

def get_data(html,class_name):
    """得到数据"""
    soup = BeautifulSoup(html,'lxml')
    container = soup.select(class_name+' ul tr')[1:]#得到class_name类名下的tr,注意返回列表
    # print(container)
    for tr in container:
        a = tr.select('td a')#获取td下的a,返回列表
        date = tr.select('td font')[0].text#得到日期
        category = a[0].text#得到类别
        url = 'http://www.dytt8.net'+ a[1]['href']#得到url
        movie = a[1].text#得到电影名称
        print(category,url,movie,date)

def main():
    url = 'http://www.dytt8.net'
    html = get_pages(url)#网页源代码
    class_name = '.co_content8'#class名
    get_data(html,class_name)#得到.co_content8类名下的数据
    class_name = '.co_content3'
    get_data(html,class_name)

if __name__ == '__main__':
    main()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值