python爬取论坛的数据,包括标题,作者,点击量和回复量

本文介绍如何使用Python爬虫抓取论坛的标题、作者、点击量和回复量信息。首先,分别获取标题和作者以及点击量和回复量数据;接着,进行数据清洗,将数据整理成DataFrame格式;然后,通过添加关键列,合并两个数据集;最后,删除不必要的关键列并以CSV格式保存文件。
摘要由CSDN通过智能技术生成

1.数据的爬取和清洗

(1)标题和作者的获取以及数据整理

from bs4 import BeautifulSoup
data_all =[]
for i in range(0,10):
    url = 'http://bbs.tianya.cn/list-no02-1.shtml'
    douban_data = requests.get(url)
    soup = BeautifulSoup(douban_data.text,'lxml')
    titles = soup.select('tr.bg td.td-title a')
    author = soup.select('tr.bg td a.author')
    
    for title,price in zip(titles,author):
         data = {'title':title.get_text().strip().split()[0],
                 'author':price.get_text().strip()}   
#         print(data)
         data_all.append(data)
len(data_all)

(2)点击量和回复量的获取(这里应该循环获取,因为每一个单页的网址不一样)

import requests
from bs4 import BeautifulSoup
url = 'http://bbs.tianya.cn/list.jsp?item=no02&nextid=1556923587000'
douban_data = request
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值