Python爬取新闻标题及链接存至 Excel(含源码)




新闻网址: https://www.tsinghua.edu.cn/news.htm

本片文章实现爬取新闻标题和链接
在这里插入图片描述
将新闻标题及链接存储至 Excel 表
在这里插入图片描述

源码

# 清华新闻

import pandas as pd
import requests
from lxml import etree

# 创建列表用于存储爬取的数据
list = []
# 请求网址
url = 'https://www.tsinghua.edu.cn/news.htm'
# 请求头
header = {
    'user_agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36'
}
# 获取响应 , 转为中文
response = requests.get(url=url, headers=header).content
chi = response.decode('utf-8')
# 解析html
html = etree.HTML(chi)

data = html.xpath('/html/body/div[6]/div/div/ul/li/div[3]/a')

for i in data:
    # 获取标题 , 并将标题数据加入 list 列表
    title_text = i.xpath('.//text()')[0]
    # list.append(title_text)
    # 获取url
    title_url = i.xpath('./@href')[0]
    # url 不完整,则拼接成完整url, 并将完整url 加入list列表
    if 'https' not in str(title_url):
        stitch_url = 'https://www.tsinghua.edu.cn/' + title_url
        list.append([title_text, stitch_url])
    else:
        list.append([title_text, title_url])

# 在程序运行窗口打印输出
for i in list:
    print(i)

# 持久化存储至 Excel文件
df = pd.DataFrame(list, columns=['title', 'url'])
df.to_excel("list.xlsx", index=False)

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值