Pycharm学习记录（二）——正则表达式的应用

最新推荐文章于 2024-03-21 15:36:23 发布

六六emmm

最新推荐文章于 2024-03-21 15:36:23 发布

阅读量1.8k

点赞数 1

文章标签： pycharm 正则表达式爬虫

本文链接：https://blog.csdn.net/qq_42544849/article/details/121321900

版权

本文作者分享了作为编程新手学习正则表达式的经历，通过保姆式教学介绍了如何使用regex101网站进行正则规则的构建和测试，以及如何将正则表达式应用于Python爬虫中。文章最后提到，作者在学习爬虫过程中为论文准备，爬取了爱彼迎网站的部分房源信息，并表示将继续学习HSV值采集和机器学习算法，期待与读者共同进步。

摘要由CSDN通过智能技术生成

上一篇文章大致讲了爬虫的五个基本步骤，还遗留了一个问题（目前都已解决）。在这里简单记录一下。

正则表达式，网上有很多对它知识的介绍，各种视频教学、各种文字说明、各种表格，作为一个新手（编程小小白），我坦白，确实没看懂。没办法，只有去请教下高手们了。后面也零零碎碎学到了一点，能够自己写出规则，匹配出想要的信息了。真不容易。

保姆式教学，步骤如下：

①先输出网页信息，并复制、粘贴到这个网址：regex101: build, test, and debug regex 的2里面。

②在1里面，开始编辑正则表达式规则，编辑的信息会在2里面标蓝，需要匹配的信息会在2里面标绿。比如匹配标题。(.*?) 这个就代表要匹配的信息所在的位子。

③熟练掌握了上面的技巧之后，就可以写进代码里。首先，建立规则；其次，作匹配。

#设置正则表达式抓取规则
findTitle = re.compile(r'    ')#标题，将1里面的内容复制粘贴到''里面


#匹配
data = []
item = str(item) #新建一个列表，方便存储所需要的信息

title = re.findall(findTitle,item)[0]
data.append(title)  

datalist.append(data)

④写在最后。爬虫爬取信息固然很方便，但是要注意做好延时，用网文明。因为要写论文，所以这段时间零零散散学了些关于爬虫的知识，学得很浅，而且目前的代码还有很多可以优化的空间。希望大家可以一起学习，一起进步。下面附上这段时间来，爬取爱彼迎网站房源信息页的数据代码。