Pycharm学习记录(二)——正则表达式的应用

本文作者分享了作为编程新手学习正则表达式的经历,通过保姆式教学介绍了如何使用regex101网站进行正则规则的构建和测试,以及如何将正则表达式应用于Python爬虫中。文章最后提到,作者在学习爬虫过程中为论文准备,爬取了爱彼迎网站的部分房源信息,并表示将继续学习HSV值采集和机器学习算法,期待与读者共同进步。
摘要由CSDN通过智能技术生成

上一篇文章大致讲了爬虫的五个基本步骤,还遗留了一个问题(目前都已解决)。在这里简单记录一下。

正则表达式,网上有很多对它知识的介绍,各种视频教学、各种文字说明、各种表格,作为一个新手(编程小小白),我坦白,确实没看懂。没办法,只有去请教下高手们了。后面也零零碎碎学到了一点,能够自己写出规则,匹配出想要的信息了。真不容易。

保姆式教学,步骤如下:

①先输出网页信息,并复制、粘贴到这个网址:regex101: build, test, and debug regex  的2里面。

 ②在1里面,开始编辑正则表达式规则,编辑的信息会在2里面标蓝,需要匹配的信息会在2里面标绿。比如匹配标题。(.*?)   这个就代表要匹配的信息所在的位子。

 ③熟练掌握了上面的技巧之后,就可以写进代码里。首先,建立规则;其次,作匹配。

#设置正则表达式抓取规则
findTitle = re.compile(r'    ')#标题,将1里面的内容复制粘贴到''里面


#匹配
data = []
item = str(item) #新建一个列表,方便存储所需要的信息

title = re.findall(findTitle,item)[0]
data.append(title)  

datalist.append(data)

④写在最后。爬虫爬取信息固然很方便,但是要注意做好延时,用网文明。因为要写论文,所以这段时间零零散散学了些关于爬虫的知识,学得很浅,而且目前的代码还有很多可以优化的空间。希望大家可以一起学习,一起进步。下面附上这段时间来,爬取爱彼迎网站房源信息页的数据代码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值