python获取页面li标签-a标签下href的值

在这里插入图片描述

def get_title_html(html_1):   #
    soup=BeautifulSoup(html_1,"html.parser")
    title_url_Date=soup.find('div',class_='clearfix dirconone').find_all('li')
    for i in title_url_Date:
        # print(i)
        url=i.find('a')['href']
        print(url)
  • 6
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
1. 导入所需的库: ``` import requests from bs4 import BeautifulSoup import pandas as pd ``` 2. 定义函数用于爬取小红书帖子标签: ``` def get_tags(url): # 发送请求获取页面内容 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 获取标签 tags = [] for item in soup.select('.note-topics .topic-item'): tags.append(item.text.strip()) return tags ``` 3. 定义函数用于爬取小红书帖子链接: ``` def get_links(page): # 发送请求获取页面内容 url = f'https://www.xiaohongshu.com/discovery/item/{page}' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 获取链接 links = [] for item in soup.select('.note-list li'): links.append(item.select_one('.title a')['href']) return links ``` 4. 定义主函数用于批量爬取小红书帖子标签,并使用pandas库保存为Excel表格: ``` def main(): # 定义要爬取的页数 pages = range(1, 11) # 定义要保存的数据列表 data = [] # 循环爬取每一页的链接,并获取标签 for page in pages: links = get_links(page) for link in links: tags = get_tags(link) data.append({'link': link, 'tags': tags}) # 将数据保存为Excel表格 df = pd.DataFrame(data) df.to_excel('tags.xlsx', index=False) ``` 5. 调用主函数开始爬取: ``` if __name__ == '__main__': main() ``` 以上代码可以批量爬取小红书帖子标签,并使用pandas库保存为Excel表格,你可以根据自己的需要进行修改和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大胖东

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值