python语言-实现半自动爬虫爬取小说《遮天》评论

本文介绍了Python初学者如何利用正则表达式实现半自动爬虫,从txt文件中提取小说《遮天》的评论信息,包括作者、时间及评论内容。通过理解并运用正则表达式,逐步解析网页源代码,最终成功打印出所需数据。
摘要由CSDN通过智能技术生成

半自动爬虫-新手

	作业要求:百度贴吧中寻找一个自己喜欢的贴吧,将其中的一片热门帖子的每一层楼的发帖人、发帖内容和发帖时间抓取下来

需要准备的是,能够理解正则表达式的运用,基础的python语法就可以很快搞定,python语言和大多数java、c只要些许的不同,间隔需把握好,工具下面采用sublime text3/IDEL。

第一步:找到自己喜欢的贴吧的源元素,另存为.txt文件
第二步:文件操作
			with open('xxx文件名') as fr:   
			     fr.read()

f是一个文件对象,我们用它来对文件进行读的操作。
读取文件的内容,下面就是想办法把我们想看到的信息分离出来

第三步:只获取想看到的信息

引入re 模块,因为python语言是不能理解正则表达式的,所以需要有一个中间人,帮它翻译。

		searchAuthor = re.findall(r'=pb" target="_blank">(.*?)<',fr)
        searchDate = re.findall(r'tail-info">(.*?)</span',fr)
        searchCon = re.findall(r'display:;"> (.*?)</div',fr)

因为我所截取的信

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值