以面向对象的程序设计方式,编写爬虫代码爬去‘李毅吧’所有页面的内容,也可以通过改变对象的参数来爬取其它贴吧页面的内容。
所用到的库为:requests
涉及知识点:python面向对象编程,字符串操作,文件操作,爬虫基本原理
程序代码如下:
import requests
class TiebaSpider:
def __init__(self, tieba_name):
self.tieba_name=tieba_name
self.url_tmp='https://tieba.baidu.com/f?kw='+self.tieba_name+'&ie=utf-8&pn={}'
self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}
def get_url_list(self): # 获取该贴吧所有的url地址并存放在列表中
url_list=[]
for i in range(1000):
url_list.append(self.url_tmp.format(i+50))
return url_list
def parse_url(self,url): # 解析url,获得响应的页面内容
response=requests.get(url,headers=self.