上一篇文章大致讲了爬虫的五个基本步骤,还遗留了一个问题(目前都已解决)。在这里简单记录一下。
正则表达式,网上有很多对它知识的介绍,各种视频教学、各种文字说明、各种表格,作为一个新手(编程小小白),我坦白,确实没看懂。没办法,只有去请教下高手们了。后面也零零碎碎学到了一点,能够自己写出规则,匹配出想要的信息了。真不容易。
保姆式教学,步骤如下:
①先输出网页信息,并复制、粘贴到这个网址:regex101: build, test, and debug regex 的2里面。
②在1里面,开始编辑正则表达式规则,编辑的信息会在2里面标蓝,需要匹配的信息会在2里面标绿。比如匹配标题。(.*?) 这个就代表要匹配的信息所在的位子。
③熟练掌握了上面的技巧之后,就可以写进代码里。首先,建立规则;其次,作匹配。
#设置正则表达式抓取规则
findTitle = re.compile(r' ')#标题,将1里面的内容复制粘贴到''里面
#匹配
data = []
item = str(item) #新建一个列表,方便存储所需要的信息
title = re.findall(findTitle,item)[0]
data.append(title)
datalist.append(data)
④写在最后。爬虫爬取信息固然很方便,但是要注意做好延时,用网文明。因为要写论文,所以这段时间零零散散学了些关于爬虫的知识,学得很浅,而且目前的代码还有很多可以优化的空间。希望大家可以一起学习,一起进步。下面附上这段时间来,爬取爱彼迎网站房源信息页的数据代码。