python 爬取贝壳网小区名称_如何使用 python 爬取全国小区名称

最新推荐文章于 2022-08-12 10:45:06 发布

新锐奢宠

最新推荐文章于 2022-08-12 10:45:06 发布

阅读量740

点赞数

文章标签： python 爬取贝壳网小区名称

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35723924/article/details/113966316

版权

前言

笔者在做一个 NLPNLPNLP 项目时，需要识别小区名，因此想要查询网上是否有相关的数据集。经过一番搜索后一无所获…从而决定自己来爬取这份数据。

由于爬取网站的内容信息之后可能会发生变更，因此此处给出具体的爬虫思路，便于应对之后的网站结构变更。

方法

1. 爬取网站的确定

既然是爬虫，那首先就需要确定爬取网站。这时候就需要思考哪些网站可能会涉及小区名字？

国家统计网？经过一番搜索，没找到…

房屋中介网？√

因此我们可以选取比较知名的房屋中介网来进行小区名爬取，此处选取的网站是链家，原因是该网站有专门的小区板块。链家

新龙城

因此我们增加一行代码来提取 imgimgimg 标签中的信息并输出。

text_list = soup.find_all('img', class_="lj-lazy")

for item in text_list:

print(item['alt'])

# 输出结果：

# 首开康乃馨城

# 农光里

# 理想家园

# 华贸城

# 住欣家园

# 远洋山水

# 旗胜家园

# 小南庄社区

# ...

第三步

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 爬取贝壳网小区名称_如何使用 python 爬取全国小区名称

前言笔者在做一个 NLPNLPNLP 项目时，需要识别小区名，因此想要查询网上是否有相关的数据集。经过一番搜索后一无所获…从而决定自己来爬取这份数据。由于爬取网站的内容信息之后可能会发生变更，因此此处给出具体的爬虫思路，便于应对之后的网站结构变更。方法1. 爬取网站的确定既然是爬虫，那首先就需要确定爬取网站。这时候就需要思考哪些网站可能会涉及小区名字？国家统计网？经过一番搜索，没找到…房屋中介网？...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。