老师,我从网页上爬虫获取的信息然后排列很乱,怎么去掉网页中存在的空格,让它整齐排列呢?代码和爬取的信息如下#-*-coding:utf8-*-
import re
import requests
import sys
sys.getdefaultencoding() #防止爬虫出的中文是乱码
class spider():
def __init__(self):
print('start to get information')
#获取源码
def getsource(self,url):
html=requests.get(url)
return html.text
#产生不同页码的链接
def linkchange(self,url,page):
newpage=int(re.search('pageNum=(d+)',url,re.S).group(1))
linkgroup=[]
for i in range(newpage,page+1):
link=re.sub('pageNum=(d+)', 'pageNum=%d'%i, url)
linkgroup.append(link)
return linkgroup
#用来抓取每个课程块的信息
def getinformation(self,source):
geteveryclass=re.findall('
',source,re.S)# print(geteveryclass)
retur