python爬虫实战(8)--获取虎pu热榜

置顶 ChrisitineTX

已于 2024-01-11 11:10:52 修改

阅读量497

点赞数 7

分类专栏： python 爬虫文章标签： python 爬虫开发语言

于 2024-01-11 11:02:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34252622/article/details/135521966

版权

爬虫同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

1. 需要的类库

import requests
from bs4 import BeautifulSoup
import pandas as pd

2. 请求地址

def fetch_data():
    url = "https://bbs.xxx.com/"  # Replace with the actual base URL
    response = requests.get(url)

    if response.status_code == 200:
        return response.content
    else:
        print(f"Error fetching data. Status code: {response.status_code}")
        return None

3. 编码

def parse_html(html_content, base_url):
    soup = BeautifulSoup(html_content, 'html.parser')
    items = soup.find_all('div', class_='text-list-model')
    first_item = items[0]
    contents = first_item.contents
    data = []
    for item in contents:
        if item.select_one('.t-title') == None:
            continue
        title = item.select_one('.t-title').text.strip()
        relative_url = item.select_one('a')['href']
        full_url = base_url + relative_url
        lights = item.select_one('.t-lights').text.strip()
        replies = item.select_one('.t-replies').text.strip()

        data.append({
            'Title': title,
            'URL': full_url,
            'Lights': lights,
            'Replies': replies
        })

    return data

注意:分析标签，这里加了非意向标签的跳过处理

4. 导出表格

def create_excel(data):
    df = pd.DataFrame(data)
    df.to_excel('hupu-top.xlsx', index=False)
    print("Excel file created successfully.")

测试

    base_url = "https://bbs.xx.com" #替换成虎pu首页地址
    html_content = fetch_data()

    if html_content:
        forum_data = parse_html(html_content, base_url)
        create_excel(forum_data)
    else:
        print("Failed to create Excel file.")

5. 成果展示

在这里插入图片描述

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ChrisitineTX CSDN认证博客专家 CSDN认证企业博客

码龄9年

36: 原创

4万+: 周排名

2万+: 总排名

10万+: 访问

: 等级

1068: 积分

4738: 粉丝

154: 获赞

71: 评论

371: 收藏

私信

关注

热门文章

分类专栏

Python进阶 1篇
go 1篇
爬虫 11篇
python 10篇
安卓 1篇
mysql 2篇
微信 1篇
FFmpeg
docker 1篇
环境技术 1篇
微服务 6篇
测试 1篇
运维技术 1篇
Java 11篇
spring 5篇
jpa 2篇
data 2篇
增删改查 2篇

最新评论

python实现发票信息识别和处理
yehx6: 博主你这个识别的是不包含税的金额，是否能增加一列含税价格？另外有源码地址吗？谢谢
关于MybatisPlus查询条件空字符串和NULL问题
ChrisitineTX: 新版本已经可以支持传参数判断了，不需要单独实现，类似于[code=java] queryWrapper.eq(StringUtils.isNotEmpty(model.getUnionId()),WeChatAppUser::getUnionId,model.getUnionId()) [/code]
关于MybatisPlus查询条件空字符串和NULL问题
qq_61870420: 我是直接判断的查询条件不等于null，但是出问题了，问题为：当我写了两条及以上的查询条件时，就查不到数据，我不知道为什么，超级崩溃，然后我给查询条件加了一个是否为空的判定，就行了，感觉很奇。
Android apk 反编译后打包(含签名）
ChrisitineTX: 好，工具命令应该是没问题的，我反编译别人apk都是可以正常签名的
Android apk 反编译后打包(含签名）
qq_20813797: 不是、我找了个大佬、我改好文件编译成未签名的apk发给他、他签名之后可以安装、没有再报错，所以我就搞不清楚了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。