python爬虫，爬取贝壳网数据简单案例

喆子玩点数据

已于 2022-10-18 17:44:39 修改

阅读量2.3k

点赞数 3

分类专栏： python爬虫文章标签： python 爬虫开发语言

于 2022-10-17 20:55:41 首次发布

本文链接：https://blog.csdn.net/m0_58239511/article/details/127375941

版权

python爬虫专栏收录该内容

7 篇文章 2 订阅

订阅专栏

文章说明

这一篇主要演示比较简易的爬虫过程
利用了
1.正则表达式
2.python操作文件编写
3.requests模块

思路

进入网站，并且读取网页源代码,爬取目标：贝壳成都二手房‘名称’，’价格‘，‘面积’

代码实现

#导入模块
import requests
from re import findall

进入网页并且获取源代码
YDM=requests.get("https://cd.ke.com/ershoufang/")
wb=YDM.text

#分段截取,由于网页较为简单，直接通关字获取需要的内容
r = findall(r'target="_blank" title="(.+)"', wb)
rr=findall(r'<span class=""> (\d+)', wb)
rrr=findall(r'<i>(\w)</i>', wb)
rrrr=findall(r'\d+平米|\d+\.\d+平米', wb)

#在当前目录创建一个txt文件，把上面获取的字符写进去
f=open('房子信息.txt', 'a', encoding='utf-8')
for i in range(len(r)):
    f.write(f'{r[i]}\n')
    f.write(f'{rr[i]}')
    f.write(f'{rrr[i]}')
    f.write(f'{rrrr[i]}\n')
#关闭文件
f.close()