爬虫小白求解【刚开始试验还能爬取到第一页的相关内容,但是修改爬取页码范围后,一点数据也没有了】

这篇文章是一位初学者尝试使用Python的requests库和BeautifulSoup解析器进行网页抓取的例子。他们试图从百度贴吧抓取用户ID、时间戳和帖子内容,并将数据存储到DataFrame中,最后导出为Excel文件。在过程中遇到了问题,可能涉及到页面解析或数据提取的准确性。
摘要由CSDN通过智能技术生成

 小白刚开始学习爬虫技术,第一个练手就失败。

希望有大佬能解答一下

import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0"
}

Id_data = []
Time_data = []
Content_data = []
data = pd.DataFrame()

for page in range(1,3):

    response = requests.get(f"https://tieba.baidu.com/p/6113854821?pn={page}", headers = headers)

    html = response.text
    soup = BeautifulSoup(html, "html.parser")

    All_id = soup.findAll("a",attrs = {'class': 'p_author_name j_user_card'})
    All_time = soup.findAll('span', attrs = {'class': 'tail-info'})
    All_content = soup.findAll('div', attrs = {'class': 'p_content'})



    for num in All_id:
        num_id = num.text
        Id_data.append(num_id)

    for Time in All_time:
        num_time = Time.text
        Time_data.append(num_time)

    for content in All_content:
        num_content = content.text
        Content_data.append(num_content)



data['id'] = Id_data
data['time'] = Time_data
data['content'] = Content_data

data.to_excel('tieba.xlsx',index = False)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值