python爬虫百度贴吧_零基础写python爬虫之抓取百度贴吧代码分享

最新推荐文章于 2021-01-30 00:06:24 发布

weixin_39637919

最新推荐文章于 2021-01-30 00:06:24 发布

阅读量158

点赞数

文章标签： python爬虫百度贴吧

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！

# -*- coding: utf-8 -*-

#---------------------------------------

# 程序：百度贴吧爬虫

# 版本：0.1

# 作者：why

# 日期：2013-05-14

# 语言：Python 2.7

# 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。

# 功能：下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):

for i in range(begin_page, end_page+1):

sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'

f = open(sName,'w+')

m = urllib2.urlopen(url + str(i)).read()

f.write(m)

f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))

begin_page = int(raw_input(u'请输入开始的页数：\n'))

end_page = int(raw_input(u'请输入终点的页数：\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码，非常的实用吧，各位可以自行扩展下。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39637919

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

利用python爬取百度贴吧源码

Jie_Ger的博客

11-20

603

import requests class tieba(object): def __init__(self,tieba_name): self.tieba_name = tieba_name self.start_url = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&amp...

python爬虫百度贴吧代码大全_获取贴吧图片的python爬虫

weixin_26516841的博客

02-10

487

给定感兴趣的贴吧首页，自动获取帖子的链接进入获取到的链接中，将帖子内的图片链接提取出来按照帖子的ID建文件夹，将帖子内图片的链接下载为图片保存到文件夹中实现过程：每一个帖子的链接都是href="/p/xxxxxxxxxx"再打开对应帖子的链接，发现该帖子正是http://tieba.baidu.com/p/xxxxxxxxx所以获取文章链接的思路很简单：获取到标题的href这个属性的内容，前面加上...

参与评论您还未登录，请先登录后发表或查看评论

python贴吧-Python爬虫——抓取贴吧帖子

q6q6q的专栏

10-28

981

#-*- coding:utf-8 -*-#!/user/bin/pythonimporturllibimporturllib2importre#处理页面标签类classTool:#去除img标签,7位长空格 removeImg = re.compile('| {7}|')#删除超链接标签removeAddr = re.compile('|')#把换行的标签换为 replaceLine = ...

【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码

qq_41453482的博客

09-10

1634

【开门见山】懒癌一犯，能拖一天是一天。好了，亲爱的小伙伴们，我又回来了！今天带来的是抓取输入的任意贴吧，抓取指定范围页数内的源代码。工具：依旧是 PyCharm 和 Google 浏览器，python 版本为3.6.6 任务目标：输入爬取的贴吧名称：如，云顶之弈输入爬取的起始页：1 输入爬取的终止页：5 预期运行结果：工程目录下会出现 5个 html 文本文档最近玩云顶有点上...

Python抓取百度贴吧网页信息以及代码下载

nyyin@qq.com

11-23

2590

代码是抓取百度贴吧帖子的回复内容的。包括帖子标题、帖子回复数量，帖子页码，回复楼层、回复时间，也可以只查看楼主的回复信息。最后将获取到的帖子信息记录到记事本中。具体结果看图：上面的图片打印的是帖子的回复总数140，总共5页。这5页信息是只有楼主的回复，没有包含全部的回复。帖子标题。第一页数量30个回复，下面依次打印每一楼的回复信息，每楼层之间用*号隔开。这个记事本保存的是楼主的回复内

python爬虫百度贴吧代码大全_python爬虫实战（2）--爬取百度贴吧

weixin_39676633的博客

01-30

361

#-*- coding: utf-8 -*-#---------------------------------------#程序：百度贴吧爬虫#作者：lzhc#日期：2017-12-11#语言：Python 2.7#操作：输入网址后自动只看楼主并保存到本地文件#功能：将楼主发布的内容打包txt存储到本地。#---------------------------------------import...

零基础写python爬虫之抓取百度贴吧代码分享

12-24

# 程序：百度贴吧爬虫 # 版本：0.1 # 作者：why # 日期：2013-05-14 # 语言：Python 2.7 # 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。 # 功能：下载对应页码内的所有页面并...

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版

12-24

用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧...

Desktop_python爬虫_股票_百度爬虫_python爬虫_

10-02

Python爬虫技术是IT行业中一个重要的分支，尤其在数据分析、信息收集和自动化处理等领域有着广泛的应用。本项目专注于使用Python进行股票数据的爬取，特别是针对百度提供的股票信息。通过编写Python脚本，我们可以...

主题爬虫_python爬虫_百度爬虫_百度_

09-30

在压缩包中的“主题爬虫”文件，很可能是包含了一个或多个Python爬虫的示例代码，这些代码可能涵盖了上述提到的技术点，如HTTP请求、HTML解析、数据存储等，通过学习和研究这些代码，你可以深入理解Python爬虫的工作...

Python抓取百度贴吧网页信息代码

11-23

代码是抓取百度贴吧帖子的回复内容的。包括帖子标题、帖子回复数量，帖子页码，回复楼层、回复时间，也可以只查看楼主的回复信息。最后将获取到的帖子信息记录到记事本中。博客地址：http://blog.csdn.net/u010156024/article/details/49995797

python 百度贴吧 爬虫

04-18

按照帖子顺序遍历百度帖子的爬虫根据静谧修改（原来那个失效了）目前速度较慢

百度贴吧爬虫

10-18

一个python爬虫，爬百度贴吧，可以教初学者爬虫知识

用Python写网络爬虫_爬虫python_爬虫_python爬虫_python_meii2_源码

09-30

标题中的“用Python写网络爬虫”意味着我们将深入探讨如何使用Python编程语言来构建网络爬虫，这是一种自动抓取互联网信息的程序。Python因其简洁易读的语法和丰富的库支持，成为了开发网络爬虫的首选语言。在这个...

python贴吧爬虫-Python编写百度贴吧的简单爬虫

weixin_37988176的博客

11-01

192

操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名代码：# -*- coding: utf-8 -*-#----------------------------# 程序：百度贴吧的小爬虫# 日期：2015/03/28# 语言：Python 2.7# 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和...

一篇文章教会你利用Python网络爬虫抓取百度贴吧评论区图片和视频

pdcfighting的博客

05-18

1701

点击上方“IT共享之家”，进行关注回复“资料”可获赠Python学习福利【一、项目背景】百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到...

python 爬取百度贴吧 帖子

dongdechuntian的博客

09-16

979

首先我们爬取的帖子网址为：https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，该网址是只看楼主的帖子的网址，因此该网站的源代码内容均为楼主所发贴的内容，爬取起来也比较方便。我们发现需要爬取的帖子一共有5页，我们可以通过for循环来进行对每一页信息的爬取。接下来我们来整体构建爬取的思路：1，爬取该网页的源代码2，用正则表达式提取所需内容3，用正则匹配对

python爬虫实战二之爬取百度贴吧帖子

finna_xu的博客

03-31

2562

目标： 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先，我们先观察一下百度贴吧的任意一个帖子。比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，分析一下地址 http：//表示资源传输使用http协议 tieba.baidu.com 是百度

Python爬虫（一）抓取指定的页面

weixin_33795833的博客

04-29

1105

(以下是在windows环境下的操作，python版本为3) 1.urllib库介绍官方文档上的解释是： urllib is a package that collects several modules for working with URLs 简单的说就是用来处理url的，它包含以下几个模块： urllib.request urllib.request，打开并且读取url urlli...

Python爬虫教程：抓取百度贴吧内容并存入txt

"这篇教程介绍了如何从零开始编写Python爬虫来抓取百度贴吧的内容，并将其存储到本地的TXT文件中。" 在Python爬虫的世界里，百度贴吧是一个常见的实践对象，因为它的网页结构相对简单，适合初学者进行学习。本教程...