爬取链家租房数据

最新推荐文章于 2023-01-03 21:15:32 发布

小太阳☀️

最新推荐文章于 2023-01-03 21:15:32 发布

阅读量844

点赞数 3

分类专栏：爬虫 Python 文章标签：爬虫

本文链接：https://blog.csdn.net/qq_38105596/article/details/82220600

版权

该博客讲述了如何利用requests和lxml库爬取链家网站上的租房信息，包括房源名称、大小、地点和价格等关键字段。博主通过循环处理翻页，将抓取的数据存储到本地数据库中，要求读者配置好相应的数据库连接信息。

摘要由CSDN通过智能技术生成

使用requests+lxml结合爬取的链家租房信息数据，翻页我直接使用循环去访问的，链接翻页的改变就是相对应的'pg1'。

主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息，获取各个字段之后连接了我的本地数据库，然后一条一条从插入数据库。

数据库的连接得填好自己想要存进去的数据库账号。

就这些了，有不懂的欢迎评论，下面附上代码：

import requests
from lxml import etree
import pymysql
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',
}

def parse_lianjia_data(url):

    data = requests.get(url,headers=headers)
    response = etree.HTML(data.content)

    length = response.xpath("//ul[@id='house-lst']/li")
    print(len(length))
    for i in range(len(length)):
        print("=========================")
        print(url)
        item = {}

        try:
            house_name = response.xpath("//li[@data-index='"+str(i)+"']//h2//text()")
            print(house_name)
            item['house_name'] = ''.join(house_name).strip()

            house_size = response.xpath("//li

最低0.47元/天解锁文章

小太阳☀️

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬取链家租房数据

使用requests+lxml结合爬取的链家租房信息数据，翻页我直接使用循环去访问的，链接翻页的改变就是相对应的'pg1'。主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息，获取各个字段之后连接了我的本地数据库，然后一条一条从插入数据库。数据库的连接得填好自己想要存进去的数据库账号。就这些了，有不懂的欢迎评论，下面附上代码：import requestsfro...
复制链接

扫一扫

专栏目录