爬虫小白求解【刚开始试验还能爬取到第一页的相关内容，但是修改爬取页码范围后，一点数据也没有了】

夜里墨痕

于 2023-05-21 23:23:09 发布

阅读量92

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qqcjc/article/details/130798482

版权

这篇文章是一位初学者尝试使用Python的requests库和BeautifulSoup解析器进行网页抓取的例子。他们试图从百度贴吧抓取用户ID、时间戳和帖子内容，并将数据存储到DataFrame中，最后导出为Excel文件。在过程中遇到了问题，可能涉及到页面解析或数据提取的准确性。

摘要由CSDN通过智能技术生成

小白刚开始学习爬虫技术，第一个练手就失败。

希望有大佬能解答一下

import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0"
}

Id_data = []
Time_data = []
Content_data = []
data = pd.DataFrame()

for page in range(1,3):

    response = requests.get(f"https://tieba.baidu.com/p/6113854821?pn={page}", headers = headers)

    html = response.text
    soup = BeautifulSoup(html, "html.parser")

    All_id = soup.findAll("a",attrs = {'class': 'p_author_name j_user_card'})
    All_time = soup.findAll('span', attrs = {'class': 'tail-info'})
    All_content = soup.findAll('div', attrs = {'class': 'p_content'})



    for num in All_id:
        num_id = num.text
        Id_data.append(num_id)

    for Time in All_time:
        num_time = Time.text
        Time_data.append(num_time)

    for content in All_content:
        num_content = content.text
        Content_data.append(num_content)



data['id'] = Id_data
data['time'] = Time_data
data['content'] = Content_data

data.to_excel('tieba.xlsx',index = False)