爬北邮人论坛某个版块的帖子,存储为txt文件,因为是txt文件所以表情,图片去掉了
首先得到某一个版块的html代码,提取出每个帖子的url
计算每个帖子的页数,根据页数循环提取帖子每页的正文内容
代码如下:
#-*- encoding: utf-8 -*-
import requests
import os
import re
print '本脚本可以帮助您下载某个版块的帖子'+'\n
爬北邮人论坛某个版块的帖子,存储为txt文件,因为是txt文件所以表情,图片去掉了
首先得到某一个版块的html代码,提取出每个帖子的url
计算每个帖子的页数,根据页数循环提取帖子每页的正文内容
代码如下:
#-*- encoding: utf-8 -*-
import requests
import os
import re
print '本脚本可以帮助您下载某个版块的帖子'+'\n