大数据毕业设计：租房数据爬取分析可视化系统 K-means聚类算法线性回归预测算法机器学习（附源码）✅

最新推荐文章于 2024-06-05 17:16:01 发布

q_3375686806

最新推荐文章于 2024-06-05 17:16:01 发布

阅读量1.1k

点赞数 26

分类专栏： biyesheji0002 毕业设计 biyesheji0001 文章标签：算法机器学习大数据 python 毕业设计 kmeans 租房

本文链接：https://blog.csdn.net/q_3375686806/article/details/135433798

版权

biyesheji0002 同时被 3 个专栏收录

189 篇文章 86 订阅

订阅专栏

毕业设计

184 篇文章 48 订阅

订阅专栏

biyesheji0001

178 篇文章 9 订阅

订阅专栏

毕业设计：2023-2024年计算机专业毕业设计选题汇总（建议收藏）

毕业设计：2023-2024年最新最全计算机专业毕设选题推荐汇总

🍅感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。🍅

1、项目介绍

租房数据分析可视化系统毕业设计 python爬虫机器学习
Django框架、scrapy 爬虫、K-means聚类算法、线性回归预测算法、链家租房网

本篇的主题是租房数据爬取分析可视化系统，并且使用了Python爬虫、机器学习的相关技术。

首先，你可以使用Scrapy爬虫框架来爬取链家租房网的租房数据。Scrapy是一个功能强大的Python爬虫框架，可以帮助你快速高效地爬取网站数据。你可以编写爬虫程序，通过Scrapy框架进行数据的爬取，并保存到本地或者数据库中。

2、项目界面

（1）词云图分析

在这里插入图片描述

（2）用户年龄分布

在这里插入图片描述

（3）房屋租金分布区间
在这里插入图片描述

（4）户型占比

在这里插入图片描述

（5）房屋数据

在这里插入图片描述

（6）房屋租金分布区间散点图

在这里插入图片描述

（7）聚类分布图

在这里插入图片描述

（8）预测分析

在这里插入图片描述

（9）数据爬取

在这里插入图片描述

3、项目说明

本篇的主题是租房数据爬取分析可视化系统，并且使用了Python爬虫、机器学习的相关技术。

接下来，你可以使用Django框架来搭建一个Web应用程序，用于展示租房数据和进行数据分析可视化。Django是一个流行的Python Web框架，可以帮助你快速开发强大的Web应用程序。你可以使用Django自带的模板语言和数据库连接功能，来展示爬取到的租房数据。

然后，你可以使用K-means聚类算法来对租房数据进行分析。K-means是一种常用的聚类算法，可以帮助你将数据分成不同的簇。你可以使用K-means算法来对租房数据进行聚类分析，找出不同的租房类型或者区域。

最后，你可以使用线性回归预测算法来对租房数据进行预测。线性回归是一种常用的预测算法，可以帮助你预测租房价格或者其他相关因素。你可以使用线性回归算法来建立模型，预测租房价格，并将预测结果展示在Web应用程序中。

综上所述，你可以使用Python爬虫、机器学习的相关技术来实现一个租房数据爬取分析可视化系统。通过Scrapy爬虫框架来爬取链家租房网的数据，使用Django框架搭建Web应用程序，使用K-means聚类算法和线性回归预测算法对数据进行分析和预测，并将结果展示在Web应用程序中。这样的系统可以帮助用户更好地了解租房市场和做出更准确的租房决策。

4、核心代码


import pymysql
import re
import numpy as np
from numpy import *
from matplotlib import pyplot as plt


def load_data_set():
    dataSet = []  # 初始化一个空列表
    """加载数据集"""
    conn = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456', db='lianjiarent',
                           charset='UTF8')
    cur = conn.cursor()
    sql = "SELECT price,area FROM rent"
    cur.execute(sql)
    data = cur.fetchall()
    print(data)
    for i in data:
        temp = []
        price = i[0]
        area = i[1]
        pattern = re.compile('面积：(.*?)㎡')
        area2 = re.findall(pattern, area)
        if(area2==[]):
            temp.append(float(area[0]))
        else:
            temp.append(float(area2[0]))
        temp.append(float(price))
        dataSet.append(temp)
    print(dataSet)
    return dataSet

def distance_euclidean(vector1, vector2):
    """计算欧氏距离"""
    return sqrt(sum(power(vector1-vector2, 2)))  # 返回两个向量的距离


def rand_center(dataSet, k):
    """构建一个包含K个随机质心的集合"""
    n = shape(dataSet)[1]  # 获取样本特征值


    # 初始化质心，创建(k,n)个以0填充的矩阵
    centroids = mat(zeros((k, n)))  # 每个质心有n个坐标值，总共要k个质心
    # 遍历特征值
    for j in range(n):
        # 计算每一列的最小值
        minJ = min(dataSet[:, j])
        # 计算每一列的范围值
        rangeJ = float(max(dataSet[:, j]) - minJ)
        # 计算每一列的质心，并将其赋给centroids
        centroids[:, j] = minJ + rangeJ * random.rand(k, 1)
    return centroids   # 返回质心


def k_means(dataSet,k,distMeas = distance_euclidean,creatCent = rand_center):
    """K-means聚类算法"""
    m = shape(dataSet)[0] # 行数
    # 建立簇分配结果矩阵，第一列存放该数据所属中心点，第二列是该数据到中心点的距离
    clusterAssment = mat(zeros((m, 2)))
    centroids = creatCent(dataSet, k) # 质心，即聚类点
    # 用来判定聚类是否收敛
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):  # 把每一个数据划分到离他最近的中心点
            minDist = inf # 无穷大
            minIndex = -1 #初始化
            for j in range(k):
                # 计算各点与新的聚类中心的距离
                distJI = distMeas(centroids[j,:],dataSet[i,:])
                if distJI < minDist:
                    # 如果第i个数据点到第j中心点更近，则将i归属为j
                    minDist = distJI
                    minIndex = j
            # 如果分配发生变化，则需要继续迭代
            if clusterAssment[i,0] != minIndex:
                clusterChanged = True
            # 并将第i个数据点的分配情况存入字典
            clusterAssment[i,:] = minIndex,minDist**2
        print(centroids)
        for cent in range(k):  # 重新计算中心点
            # 去第一列等于cent的所有列
            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]
            # 算出这些数据的中心点
            centroids[cent, :] = mean(ptsInClust, axis=0)
    return centroids, clusterAssment

def draw():
    datMat = mat(load_data_set())
    myCentroids, clusterAssing = k_means(datMat, 3)
    plt.scatter(array(datMat)[:, 0], array(datMat)[:, 1], c=array(clusterAssing)[:, 0].T)
    plt.scatter(myCentroids[:, 0].tolist(), myCentroids[:, 1].tolist(), c="r")
    plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
    plt.xlabel("单位/平方米")
    plt.ylabel("单位/元")
    plt.savefig("../static/image/total.png")
    plt.show()


if __name__ == '__main__':
    draw()