python根据url批量获取title

# -*- coding: utf-8 -*-

import re

import requests

from bs4 import BeautifulSoup

def pick_charset(html):

    charset = None

    m = re.compile(

        '<meta .*(http-equiv="?Content-Type"?.*)?charset="?([a-zA-Z0-9_-]+)"?', re.I).search(html)

    if m and m.lastindex == 2:

        charset = m.group(2).lower()

    return charset

# 获取title

urlTuple =("url1","url2","url3")

for url in urlTuple:

    res = requests.get(url)

    res.encoding = pick_charset(url)  # 调用pick_chartset()函数获取网站编码类型

    soup = BeautifulSoup(res.text, 'lxml')

    print(soup.title.text)  # 提取title并打印

#BeautifulSoup获取class 获取选择器的内容需要遍历

# for h2 in soup.select('.h2'):

    #     print(h2.get_text())  # 输出.h2里的内容

#怎么读取文件,怎么写入文件我也不会>_<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值