爬取网页页面信息技术交流

完整代码


# 文件名称 爬取武汉大学
from module.write_and_read import dump_excel
import requests
from lxml import html

# 存在获取需要内容的列表
head_list = []


def main(url, page, num):
    # 地址
    url = url

    headers = {'User-Agent':
                '自己电脑的用户代理',
                }

    # 请求数据
    resp = requests.get(url, headers=headers)

    # 解析网页
    text = html.etree.HTML(resp.text)

    #获取需要内容所在标签
    headline_list = text.xpath('//ul[@class="p-list10"]/li/div[@class="txt"]')
    print(headline_list)
    print(len(headline_list))

    # 循环标签列表
    for headline in headline_list:
        headline1 = headline.xpath('./h4[@class="tit"]/a[@href]/text()')
        head_list.append(headline1)
        headline1 = headline.xpath('./h4[@class="tit"]/a[@target="_blank"]/@href')
        head_list[num].extend(["http://journal.whu.edu.cn" + headline1[0]])
        headline1 = headline.xpath('./div[@class="date"]/text()')
        head_list[num].extend(headline1)
        num += 1

    print(head_list)
    return num


if __name__ == '__main__':
    # 计算内容保存列表位置
    num = 0

    # 爬取页数
    page = 0
    for i in range(1,10):
        # 网页地址
        url = f"http://journal.whu.edu.cn/news/index/page/{i}"
        num = main(url, page, num)

    # 定义列表头
    headers = ['标题', '网址', '时间']

    # 保存到excel表
    dump_excel(headers,head_list, "test1")
    pass
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值