重拾爬虫day02

最新推荐文章于 2024-09-09 00:00:00 发布

老白菜c

最新推荐文章于 2024-09-09 00:00:00 发布

阅读量81

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_49130527/article/details/115741829

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了使用Python的re模块进行正则表达式匹配，通过实例展示了如何找到并处理HTML标签中的内容。此外，还讲解了如何利用re.sub进行字符串替换，以及在数据清洗过程中去除不需要的元素。最后，将处理后的数据保存到Excel表格中，为后续分析做好准备。

摘要由CSDN通过智能技术生成

今天可学的不少呀
得好好消化消化
首先是正则表达式的匹配
使用方法re
findTitle = re.compile("r'<p class="">(.*?)</p>',re.S") 里面填规则也就是格式
然后再用re.findeall(findTitle,item) 前面是格式，后面是要查找的文档
重要的是那个格式运用的是正则的规则，最好在规则前r 直接不编译里边的转义字符
贴几个比较重要和基础的
在这里插入图片描述

加粗样式
然后就是细节上边，比如说删除查找的东西中，有自己不想要的东西

 bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)  #去掉<br/>
            bd = re.sub('/'," ",bd)  #替换/
            data.append(bd.strip())#去掉前后的空格

这些优化细节的地方需要以后多加练习，以及上边的规则。

后面就是保存到表格

 book = xlwt.Workbook(encoding="utf-8")  # 创建workbook对象
    sheet = book.add_sheet("豆瓣电影TOP250",cell_overwrite_ok=True) # 创建工作表
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range (0,8):
        sheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j]) #数据

    book.save(dbpath)  #保存

这就是今天的啦~

老白菜c

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
重拾爬虫day02

今天可学的不少呀得好好消化消化首先是正则表达式的匹配使用方法refindTitle = re.compile("r'<p class="">(.*?)</p>',re.S") 里面填规则也就是格式然后再用re.findeall(findTitle,item) 前面是格式，后面是要查找的文档重要的是那个格式运用的是正则的规则，最好在规则前r 直接不编译里边的转义字符贴几个比较重要和基础的然后就是细节上边，比如说删除查找的东西中，有自己不想要的东西 bd = re.
复制链接

扫一扫

专栏目录