爬虫实战：urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装？

最新推荐文章于 2024-02-02 14:05:29 发布

Python 集中营

最新推荐文章于 2024-02-02 14:05:29 发布

阅读量270

点赞数 1

分类专栏： python 文章标签： python urllib2 爬虫

本文链接：https://blog.csdn.net/chengxuyuan_110/article/details/115485327

版权

python 专栏收录该内容

107 篇文章 35 订阅

订阅专栏

该博客介绍了Python爬虫的基本步骤，包括导入必要的库如urllib和fake_useragent，生成随机User-Agent，执行网页请求，保存HTML源代码。用户可以自定义输入爬取的贴吧名称、开始页码和结束页码，实现批量下载页面并保存为HTML文件。

摘要由CSDN通过智能技术生成

1、导入项目所需要的的扩展库

1# -*- coding: UTF-8 -*-
2
3# 导入 urllib 用于参数数据编码
4import urllib
5# 导入 urllib2 用于执行核心爬虫
6import urllib2
7
8# 导入 UserAgent 用于生成 UA
9from fake_useragent import UserAgent

2、执行网页请求函数

 1# 执行网页请求
 2def req_url(self,full_url):
 3    headers = {
 4        # 随机生成一个 User-Agent
 5        'User-Agent': self.user_agent.random
 6    }
 7    # 构造 Request 请求对象
 8    request = urllib2.Request(headers=headers, url=full_url)
 9    # 执行请求
10    response = urllib2.urlopen(request)
11    return response.read()

3、保存网页下载的 html 源代码

1# 将爬取下来的 html 源代码保存
2def save_doc(self,html_doc, file_name):
3    print "开始保存文件:", file_name
4    with open(file_name, 'w') as f:
5        f.write(html_doc)
6    print "完成文件:", file_name, " 保存"

4、组装完整的爬虫地址、参数组装等

 1# 构造爬虫环境、并执行
 2def run_spider(self):
 3    for page in range(self.begin, self.end + 1):
 4        # 计算页码
 5        pn = (page - 1) * 50
 6        # 对中文参数进行编码
 7        name = urllib.urlencode({'kw': self.tieba_name})
 8        # 组装完整的爬虫地址
 9        full_url = self.url + name + '&pn=' + str(pn)
10        # 根据页数定义文件名称
11        file_name = str(page) + '.html'
12        # 执行爬虫网页请求
13        html_doc = self.req_url(full_url)
14        # 保存文件
15        self.save_doc(html_doc, file_name)

5、用户自定义输入参数

1# 用户输入相关数据
2url = 'http://tieba.baidu.com/f?'
3tieba_name = raw_input('请输入要爬取的贴吧名称：')
4begin = int(raw_input('请输入开始页码：'))
5end = int(raw_input('请输入结束页码：'))