爬取链家数据

最新推荐文章于 2024-05-08 16:45:06 发布

TaLAng321

最新推荐文章于 2024-05-08 16:45:06 发布

阅读量454

点赞数 1

文章标签： python 爬虫

本文链接：https://blog.csdn.net/TaLAng321/article/details/121405249

版权

本文介绍了如何利用Python的selenium库来模拟浏览器行为，爬取链家网站上的数据。首先，文章详细讲解了引入相关库的步骤，接着展示了爬虫代码的实现过程，最后给出了数据预览，作为学习爬虫的一个实践案例。

摘要由CSDN通过智能技术生成

前言

学习爬虫

整体的思路是采用 selenium 模拟浏览器的行为

爬取链家

1.引入库

代码如下（示例）：

import requests
from lxml import etree
import time
import re
import json
from selenium import webdriver

from selenium.webdriver.support.wait import WebDriverWait

2.爬虫代码

代码如下（示例）：

base_url='https://beijing.lianjia.com'
def pares_url(url):
    
    chrome_options = webdriver.ChromeOptions() 
    chrome_options.add_argument('--headless') 
    browser = webdriver.Chrome()

   
    
    #url = start_url.format(x)
    br