先上爬虫代码:GitHub
第一次写爬虫,1万多条数据,程序跑了10分钟,不会异步也不会多线程,新手默默学习中。。。
大致浏览一下数据:
包括:房屋描述,区域,地区,小区,房型,面积,楼层,朝向,价格,年限,更新时间,看房人数,网站从数据库导入数据
import pandas as pd
import pymysql
conn = pymysql.connect(user='root', password='123456', db='mysql', charset='utf8)
sql = "select * from lianjia_zufang;"
df = pd.read_sql(sql, conn)
房屋数量分布
先看看各个行政区有多少套房子在租:
df['区域'].value_counts()
Out[121]:
天河 2320
海珠 2070
白云 2024
番禺 2016
荔湾 1660
越秀 1019
黄埔 548
增城 351
花都 98
南沙 2
Name: 区域, dtype: int64
可以看到,在租房子最多的是天河(毕竟CBD地处天河)ÿ