重拾爬虫day02

本文介绍了使用Python的re模块进行正则表达式匹配,通过实例展示了如何找到并处理HTML标签中的内容。此外,还讲解了如何利用re.sub进行字符串替换,以及在数据清洗过程中去除不需要的元素。最后,将处理后的数据保存到Excel表格中,为后续分析做好准备。
摘要由CSDN通过智能技术生成

今天可学的不少呀
得好好消化消化
首先是正则表达式的匹配
使用方法re
findTitle = re.compile("r'<p class="">(.*?)</p>',re.S") 里面填规则也就是格式
然后再用re.findeall(findTitle,item) 前面是格式,后面是要查找的文档
重要的是那个格式运用的是正则的规则,最好在规则前r 直接不编译里边的转义字符
贴几个比较重要和基础的
在这里插入图片描述

加粗样式
然后就是细节上边,比如说删除查找的东西中,有自己不想要的东西

 bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)  #去掉<br/>
            bd = re.sub('/'," ",bd)  #替换/
            data.append(bd.strip())#去掉前后的空格

这些优化细节的地方需要以后多加练习,以及上边的规则。

后面就是保存到表格

 book = xlwt.Workbook(encoding="utf-8")  # 创建workbook对象
    sheet = book.add_sheet("豆瓣电影TOP250",cell_overwrite_ok=True) # 创建工作表
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range (0,8):
        sheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j]) #数据

    book.save(dbpath)  #保存

这就是今天的啦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值