Python抓取上师大要闻sdyw

#requests etree lxml xpath 

某人的课上作业,就成了我的作业;

备注:本文只记录方法,重要信息已xxx;

import requests
from lxml import etree

def get_sdyw():
    try:
        headers = {
            "User-Agent": "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"}
        res = requests.get(url, headers=headers)
        #print(res.encoding) #查看编码
        #print(res_html) #打印网页
        html = etree.HTML(res.content) #解析文本
        content_list = html.xpath('//div[@id="l-container"]//div[@id="wp_news_w6"]//span[@class="news_title"]//text()')
        #print(content_list)

        content_str = '\n'.join(content_list) #使用join可以拼接
        print(content_str)
    except:
        print('error')


def get_page():
    urls = ["https://www.xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx/list{}.htm".format(str(i)) for i in range(1, 11)]
    return urls


if __name__ == '__main__':
    get_page()
    for url in get_page():
        get_sdyw()

效果:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值