Python爬取链家地铁房数据

本文展示了如何使用Python进行网页爬虫,通过BeautifulSoup库从链家网站抓取北京地铁房的房源信息,包括房源编号、单价和地铁站名称,并将数据存储到CSV文件中。
摘要由CSDN通过智能技术生成
#coding=gbk
#因为涉及到中文,utf-8会报错
### 环境:Python 3.6###
import requests
import re
import pandas as pd
import csv
from bs4 import BeautifulSoup
def generate_allurl(user_in_nub):
    url = 'https://bj.lianjia.com/ditiefang/li647/pg{}/'
    for url_next in range(1, int(user_in_nub)):
        yield url.format(url_next)
def main():
    #user_in_nub = input('输入生成页数:')
    df = []
    for i in generate_allurl(35): #总共34页
        print("页码"+i)
        #get_allurl(i)
        res = requests.get(i)
        if res.status_code == 200:
            soup = BeautifulSoup(res.text, 'lxml') #获取html的文本
            re_set = re.compile('<li.*?class="clear">.*?<a.*?class="img.*?".*?data-housecode="(.*?)"')#正则匹配data-house
            re_get = re.findall(re_set, res.text)#获取一页的二手房信息个数
            print(len(re_get))
            #for i
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值