python百度贴吧爬虫总体设计_爬虫爬取百度贴吧(python)

weixin_39602579

于 2020-12-08 16:19:00 发布

阅读量674

点赞数

文章标签： python百度贴吧爬虫总体设计

以往编写的一个爬取百度贴吧的小爬虫，发布出来，供大家参考。

本爬虫是在pycharm中编写完成，服务器环境是ubuntu16.04，使用语言是python3，导入的模块包是requests模块

# 导入模块

import requests

# 定义百度贴吧爬虫类

class TiebaSpider(object):

def __init__(self):

self.base_url = 'http://tieba.baidu.com/f'

self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}

self.tieba_name = input('请输入贴吧名字：')

self.start_page = int(input('请输入开始页数：'))

self.end_page = int(input('请输入结束页数：'))

# 1.发送请求,获得数据

def send_request(self,tieba_params):

response = requests.get(self.base_url,headers=self.headers,params=tieba_params)

data = response.content

return data

# 2.保存数据

def write_file(self,data,page):

# 设置路径页数

file_path = '/home/python/PycharmProjects/scrapy_demo/Tieba/' + str(page) + '.html'

# 打印正在抓取的页数,使用format拼接打印正在抓取的页数

print('正在抓取第{}页'.format(page))

with open(file_path,'wb') as f:

f.write(data)

# 3.调度任务

def run(self):

# 循环爬取数据

for page in range(self.start_page,self.end_page+1):

# 1.拼接数据

tieba_params = {

"kw": self.tieba_name,

# 确定页数

"pn": (page - 1)*50

}

# 2.发送请求

data = self.send_request(tieba_params)

# 3.保存数据

self.write_file(data,page)

if __name__ == '__main__':

# 实例化对象

tool = TiebaSpider()

# 调用run方法

tool.run()

在编写调试过程中，出现了几个问题，现列举如下

错误问题：

1.爬取网页时url 填写http开头，而不是填写https开头

2. User-Agent不对(之前一直提取不出来数据，还以为是爬虫哪里写错了，后来查找发现是设置的U-A有问题，换了一个U-A就能将数据爬取出来了)，也会提取不出来数据

3.路径要选择正确，不要写错了，例如 with open('file_path','wb')是错误的， with open(file_path,'wb')才是正确的

weixin_39602579

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python百度贴吧爬虫总体设计_爬虫爬取百度贴吧(python)

以往编写的一个爬取百度贴吧的小爬虫，发布出来，供大家参考。本爬虫是在pycharm中编写完成，服务器环境是ubuntu16.04，使用语言是python3，导入的模块包是requests模块# 导入模块import requests# 定义百度贴吧爬虫类class TiebaSpider(object):def __init__(self):self.base_url = 'http://tieb...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。