import openpyxl # 导入处理excel文件用到的库
import requests # 导入requests 请求库
from lxml import etree # 导入lxml解析库
import pymysql
def main(baseurl):
"""
1.爬取网页
2.逐一解析
3.保存数据
:return:
"""
print("START爬取楼盘")
# baseurl = "https://cd.fang.lianjia.com/loupan/"
num = int(input("需爬页数:"))
datalist = getdata(baseurl, num) #用下面的getdata函数爬取网页返回数据给datalist
# 保存数据
savepath = "a.xlsx" #设置数据上传到aEXCEL
savedata(datalist, savepath) #调用下面写的保存数据到excel的函数
savedatadb(datalist)
print("OK!") #函数成功调用保存之后输出ok
def getdata(baseurl, num):
datalist = []
x = [str(i) for i in range(1, num+1)] # 字符串类的数字序列,用于拼接网址
global name # 用于拼接网址
name = str(input("请输入查找的相关内容:")) # 用于拼接网址
for i in range(0, num):
# https://cd.fang.lianjia.com/loupan/pg2rs1
# 爬取网页
url = baseurl + "pg" + x[i] + "rs" + name
print(url)
resp = requests.get(url) #使用get()方法抓取网页信息
# print(resp.text)
#用etree.HTML来解析这个网页的结构,最后通过xpath获取自己所需的内容
html = etree.HTML(resp.text)
# 获取网页信息
divs = html.xpath("/html/body/div[3]/ul[2]/li")