python爬取论坛的数据，包括标题，作者，点击量和回复量

最新推荐文章于 2024-07-21 06:45:45 发布

ITWords

最新推荐文章于 2024-07-21 06:45:45 发布

阅读量4.2k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/new_buff_007/article/details/89848583

版权

本文介绍如何使用Python爬虫抓取论坛的标题、作者、点击量和回复量信息。首先，分别获取标题和作者以及点击量和回复量数据；接着，进行数据清洗，将数据整理成DataFrame格式；然后，通过添加关键列，合并两个数据集；最后，删除不必要的关键列并以CSV格式保存文件。

摘要由CSDN通过智能技术生成

1.数据的爬取和清洗

（1）标题和作者的获取以及数据整理

from bs4 import BeautifulSoup
data_all =[]
for i in range(0,10):
    url = 'http://bbs.tianya.cn/list-no02-1.shtml'
    douban_data = requests.get(url)
    soup = BeautifulSoup(douban_data.text,'lxml')
    titles = soup.select('tr.bg td.td-title a')
    author = soup.select('tr.bg td a.author')
    
    for title,price in zip(titles,author):
         data = {'title':title.get_text().strip().split()[0],
                 'author':price.get_text().strip()}   
#         print(data)
         data_all.append(data)
len(data_all)

（2）点击量和回复量的获取（这里应该循环获取，因为每一个单页的网址不一样）

import requests
from bs4 import BeautifulSoup
url = 'http://bbs.tianya.cn/list.jsp?item=no02&nextid=1556923587000'
douban_data = request

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ITWords

关注关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

利用Python爬虫获取网络论坛的讨论主题和帖子：一个实战教程

2201_76125393的博客

07-03

680

在本文中，我们探索了如何使用Python爬虫从网络论坛获取讨论主题和帖子的内容。我们学习了使用requests和BeautifulSoup库，解析HTML文档，定位和提取需要的数据，以及如何处理多页数据和保存数据到CSV文件。

python新手爬取论坛贴吧特定人的帖子——虎扑《健美大神之路》

ACHPXYZ的博客

08-21

1846

在虎扑上，有博主翻译《健美大神之路》，感觉很好，但是想要找电子书却没有，所以就打算自己爬下来存在文本文档中。我应用的是urllib2,beautifulsoup这两个工具。在这个编程中，我遇到的最大的麻烦就是，编码标准错误和我爬取的帖子文本中有他人的帖子。第一个问题我现在还是不太懂，最后胡乱试解决了。 for string in tags.next_sibling

参与评论您还未登录，请先登录后发表或查看评论

Python html 爬虫抓取论坛内容

nv5988的博客

05-09

895

python爬取Drupal论坛帖子列表

人生苦短，还不用Python？

05-10

341

通过GooSeeker API实时获取用于页面提取的xslt 使用GooSeeker提取器gsExtractor从网页上一次提取多个字段内容。 python源代码 4，抓取结果运行上节的代码，即可在控制台打印出提取结果，是一个xml文件，如果加上换行缩进，内容如下图： ...

python交流论坛推荐,python技术交流论坛

最新发布

ab524100的博客

07-21

1244

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份小狗的 Python 小狗，给那些想学习 Python 的小伙伴们一点帮助！

简易python爬虫 - 爬取站长论坛信息

weixin_30600197的博客

04-16

816

爬取目标: 收集网站帖子里发帖人用户名,发帖人ID;帖子的ID,发帖内容;网站title 提前需要准备的python库 pip3 install requests //用于获得网站的源码 pip3 install bs4 //解析遍历网站标签 pip3 install urllib //解析网站的url 首先导入包 import requestsfrom bs4 impor...

python爬取贴吧所有帖子-通过python爬取贴吧数据并保存为word

weixin_37988176的博客

11-01

1009

前言Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。日前，在学习中思考，如何整理一份贴吧历史数据出来，从中找寻当年玩贴吧的回忆呢。于是就有了想从贴吧爬取数据的想法，此代码的由来就是如此。事前准备应先安装pycharm，此处使用的是社区版用于个人学习。如...

Python 爬取微信公众号文章和评论 (有源码)

不想当码农的程序员

10-29

5403

关注我，一个仍存梦想的屌丝程序员，每天为你分享高质量编程博客。 follow us for dream 关注我回复 “微信爬虫” 获取源代码背景说明感觉微信公众号算得是比较难爬的平台之一，不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太快也有反爬限制)，但后面会开始整理写一些实战出来。简单介绍下本次的开发环境： python3 requests psycop...

Python 爬取微信公众号文章和评论 (基于 Fiddler 抓包分析)

热门推荐

happyJared

08-28

2万+

背景说明感觉微信公众号算得是比较难爬的平台之一，不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太快也有反爬限制)，但后面会开始整理写一些实战出来。简单介绍下本次的开发环境： - python3 - requests - psycopg2 (操作postgres数据库) 抓包分析前一篇文章介绍过抓包前要做的准备，这里不再做相关说明。本次实战对抓取的公众号没有限...

python爬虫登录小木虫论坛爬取交友信息

07-24

python爬虫登录小木虫论坛爬取交友信息，需登录两次，第二次要回答一个简单的问题，见源代码 session = requests.session() g = session.get('http://muchong.com/bbs/logging.php?action=login') g.headers = {"User-Agent", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.100 Safari/537.36"} se = re.search(re.compile(r'action=login&t=(.*?)">登录'), g.text) urls = r'http://muchong.com/bbs/logging.php?action=login&t=' + se.group(1) se = re.search(re.compile(r'name="loginsubmit" value="(.*?)" class'), g.text) loginsubmit = se.group(1) login_infor = { 'formhash': "46295093", 'username': "xxxxxx", 'password': "xxxxxx", 'cookietime': "31536000", 'refer':"", 'loginsubmit': "会员登录" }

一个贴吧爬虫，可以定向爬取指定贴吧的标题。以供参考。

11-26

一个贴吧爬虫，可以定向爬取指定贴吧的标题。以供参考。

Python爬取微信公众号文章和评论 (基于Fiddler抓包分析)

weixin_34326179的博客

08-28

2936

背景说明感觉微信公众号算得是比较难爬的平台之一，不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太快也有反爬限制)，但后面会开始整理写一些实战出来。简单介绍下本次的开发环境： python3 requests psycopg2 (操作postgres数据库) 抓包分析前一篇文章介绍过...

python爬虫实际应用_如何使用python爬虫论坛？

weixin_39707536的博客

11-26

207

除了之前跟大家讲述过的视频、音乐以及时事新闻，关于爬虫可以做的事情有很多很多，像论坛也是其中之一，应用最火的内容，之前给大家罗列的爬虫实际内容有很多，但是还是希望将每个实际内容都跟大家说一下。让大家在遇到这些问题时候，可以有个参考，因此，根据大家罗列的清单，给大家继续安排python怎么爬取论坛，一起来看下吧~库：requests,re,selenium,time具体步骤：一、搜索贴吧准备一个自己...

【Xpath】、【使用xpath解析方式爬取QZZN论坛中的帖子标题及url】

bettyantony的博客

02-14

485

一、数据解析常用的三种方式——②Xpath 1.调用时 from lxml import etree 2.转解析类型时 xpath_data = etree.HTML(data)#将html文档或者xml文档转换成一个etree对象，然后调用对象中的方法查找指定的节点 3.xpath返回的数据类型是list，xpath的基本语法 #xpath 语法1.节点: / 2.跨节点: // 3....

scrapy 爬取论坛帖子名称及链接（递归方式获取）

java_raylu的博客

01-05

1658

本文主要爬取西安论坛帖子，如果要爬取内容及评论热度等可以再深入爬取首先建立spider xi'an，命令 scrapy genspider xian ixian.com xian.py内容： import scrapy from scrapy.selector import Selector,HtmlXPathSelector from scrapy.http import Reques...

[Python]爬取CSDN论坛标题 2020.2.8

weixin_43847567的博客

02-08

221

首先新建一个Lei.txt 内容为： CloudComputingParentBlockchainTechnologyEnterpriseDotNETJavaWebDevelopVCVBDelphiBCBCppOtherLanguageMSSQLPowerBuilderOracleLinuxWindowsEmbeddedGameDevelopNetwork_communicationOt...