今天可学的不少呀
得好好消化消化
首先是正则表达式的匹配
使用方法re
findTitle = re.compile("r'<p class="">(.*?)</p>',re.S")
里面填规则也就是格式
然后再用re.findeall(findTitle,item) 前面是格式,后面是要查找的文档
重要的是那个格式运用的是正则的规则,最好在规则前r 直接不编译里边的转义字符
贴几个比较重要和基础的
然后就是细节上边,比如说删除查找的东西中,有自己不想要的东西
bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
bd = re.sub('/'," ",bd) #替换/
data.append(bd.strip())#去掉前后的空格
这些优化细节的地方需要以后多加练习,以及上边的规则。
后面就是保存到表格
book = xlwt.Workbook(encoding="utf-8") # 创建workbook对象
sheet = book.add_sheet("豆瓣电影TOP250",cell_overwrite_ok=True) # 创建工作表
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
for i in range (0,8):
sheet.write(0,i,col[i])
for i in range(0,250):
print("第%d条"%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j]) #数据
book.save(dbpath) #保存
这就是今天的啦~