SpiderLianjia
介绍
python爬虫小程序,爬取链家网南京地区普通住宅二手房数据。
代码下载: https://gitee.com/lihaogn/SpiderLianjia
1 程序设计
1.1 开发环境
- 操作系统:macOS Mojave
- 软件需求:Python 3.6、MongoDB 3.6.2
1.2 基本功能
- 爬取链家网中南京市二手房普通住宅分类前40页的详细信息
- 绘制出鼓楼区不同装修情况的二手房的建筑面积与总价的关系图
1.3 程序流程图
1.3.1 爬取数据
1.3.2 数据处理与图绘制
1.4 数据库设计
1.4.1 数据表设计
字段名 | 字段数据类型 |
---|---|
标题名称 | String |
房屋总价 | String |
小区名称 | String |
行政区域 | String |
房屋地址 | String |
房屋户型 | String |
所在楼层 | String |
建筑面积 | String |
户型结构 | String |
套内面积 | String |
建筑类型 | String |
房屋朝向 | String |
建筑结构 | String |
装修情况 | String |
梯户比例 | String |
配备电梯 | String |
产权年限 | String |
2 使用说明
2.1 安装与配置
2.1.1 安装Python
-
访问官网,进入下载页面,选择对应操作系统的版本进行下载,之后安装即可。
-
配置环境变量:
Windows系统在安装时直接选择添加环境变量即可。
-
打开终端或命令提示符,输入以下指令来安装第三方库文件:
pip install lxml
pip install beautifulsoup4
pip install matplotlib
pip install numpy
pip install pandas
pip install pymongo
pip install requests
2.1.2 安装MongoDB
-
访问官网,进入下载页面下载软件,之后安装即可。macOS下载的是压缩包,解压即可。
-
配置环境变量:
macOS需要在主目录.bash_profile文件中添加MongoDB所在的安装路径。添加的语句为:
MONGODB_HOME=”你安装MongoDB的绝对路径” PATH=”$ MONGODB_HOME/bin:$PATH”
2.2 操作说明
2.2.1 运行数据库服务
- Windows系统,需要打开安装目录,双击mongod.exe来运行数据库服务。
- macOS,打开终端,输入“mongod”指令来运行数据库服务。
2.2.2 爬取数据并入库
-
打开终端或命令提示符,输入指令进入项目文件夹
-
运行以下指令,进行爬取数据:
python spider_work.py
2.2.3 绘制关系图
-
打开终端或命令提示符,输入指令进入项目文件夹
-
运行以下指令,进行绘图操作:
python dataAnalyse.py