import re
from urllib.request import Request, urlopen
#爬虫基本的三个步骤:1.向页面发送请求, 获取源代码(都是静态页面的代码);2, 利用正则匹配数据;3 .保存到数据库
class DataParserTool(object):
#类中方法cls
@classmethod
def parser_data(cls, data):
data_list = [] for title, info, name, time, read_num, comment_num in data: title = title.strip() # 去除两端空格strip()切片是非常常用的处理数据的方法 res = info.replace('
', '') #replace把第一个参数替换成第二个参数 res1 = res.replace('\n', '') info = res1.strip() name = name.strip() time = time.strip() data_list.append((title, info, name, time, read_num, comment_num)) #append添加注意添加的内容是元组!! return