链家(beautifulsoup)

import requests
from bs4 import BeautifulSoup

for i in range(1,6):
    url = 'https://bj.lianjia.com/ditiezufang/rp%s/'%(i)

    response = requests.get(url)

    # with open('lianjia.html','wb') as f:
    #     f.write(response.content)

    # html = response.text
    # print(html)

    soup = BeautifulSoup(response.text, 'lxml')
    ul_tag = soup.find('ul', id="house-lst")
    # print(ul_tag)

    li_tags = ul_tag.find_all('li')
    # print(li_tags)

    for li_tag in li_tags:
        # print(li_tag)
        title = li_tag.select('div.info-panel > h2 > a')[0].text
        print(title)
        info = li_tag.select('div.where')[0].text
        print(info)
        info_lou = li_tag.select('div.con')[0].text
        print(info_lou)
        tags = li_tag.select('div.view-label')[0].text
        print(tags)
        price = li_tag.select('div.price')[0].text
        print(price)
        update_time = li_tag.select('div.price-pre')[0].text
        print(update_time)
        # page_num = li_tag.select('div.list-wrap > div > a:nth-child')[0].text
        # print(page_num)
        print('-'*50)
        # body > div.wrapper > div.main - box.clear > div > div.list - wrap > div > a: nth - child(5)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
抱歉,根据提供的引用内容,没有提供关于在Jupyter Notebook中爬取链家的代码。但是,我可以为您提供一些关于在Jupyter Notebook中爬取链家的一般步骤和示例代码。 首先,您需要安装所需的库,例如requests、BeautifulSoup和pandas。您可以使用以下命令在Jupyter Notebook中安装它们: ```shell !pip install requests !pip install beautifulsoup4 !pip install pandas ``` 接下来,您可以使用以下代码作为爬取链家信息的示例: ```python import requests from bs4 import BeautifulSoup import pandas as pd def crawl_data(url): # 发送请求获取页面内容 response = requests.get(url) # 使用BeautifulSoup解析页面内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取房源信息 items = soup.find_all('div', class_='info clear') # 遍历房源信息并提取所需数据 for item in items: title = item.find('a').text.strip() price = item.find('div', class_='price').span.text.strip() # 将数据存储到列表中 item_list.append({'Title': title, 'Price': price}) # 设置起始URL start_url = '/ershoufang/' item_list = [] # 爬取多页数据 for a in range(20): next_url = f'{start_url}pg{a+1}/' print(next_url) crawl_data(next_url) # 将数据写入CSV文件 file_name = '链家信息爬取.csv' df = pd.DataFrame(item_list) df.to_csv(file_name, index=False, encoding='utf-8-sig') print(f"爬取完成,共爬取{len(item_list)}条数据") ``` 请注意,以上代码仅为示例,具体的爬取逻辑可能需要根据链家网站的结构和变化进行调整。另外,爬取网站数据时请遵守相关法律法规和网站的使用条款。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值