pip install 模块名称 -i https://mirrors.aliyun.com/pypi/simple
我大致罗列了以下几种国内镜像源:
清华大学
https://pypi.tuna.tsinghua.edu.cn/simple
阿里云
https://mirrors.aliyun.com/pypi/simple/
豆瓣
https://pypi.douban.com/simple/
百度云
https://mirror.baidu.com/pypi/simple/
中科大
https://pypi.mirrors.ustc.edu.cn/simple/
华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/
腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/
首先,我们导入了必要的库:
import requests
from lxml import etree
import json
import pandas as pd
接下来是一些请求所需的头信息和 cookies:
cookies = {
# 这里是一些 cookie 信息
}
headers = {
# 这里是一些请求头信息
}
现在,我们定义了一个函数 getAreasInfo(city)
,用于获取各个区域的名称和链接:
def getAreasInfo(city):
# 发送请求,获取页面内容
# 从页面内容中提取区域名称和链接
return districts
然后是另一个函数 getSinglePageInfo(city, areaname, pathname)
,用于获取单页的二手房信息:
def getSinglePageInfo(city, areaname, pathname):
# 发送请求,获取页面内容
# 解析页面内容,提取所需的房屋信息
# 将提取的信息保存到 DataFrame 中
return df
接下来是主函数 getSalesData(city)
,用于获取整个城市的二手房销售数据并保存到 Excel 文件:
def getSalesData(city):
# 获取各区域信息
# 遍历各区域,调用 getSinglePageInfo() 函数获取数据
# 整合数据到 DataFrame 中
# 将 DataFrame 数据保存为 Excel 文件
最后,在 if __name__ == '__main__':
中,我们调用了 getSalesData('hz')
函数以执行爬取数据的操作。