使用爬虫获取毛豆全部在售车型,目前只获取了图片的地址。
"""
功能:获取毛豆新车网的在售车型信息
作者:Mac
时间:2020.6.11
"""
import requests
import csv
from bs4 import BeautifulSoup
# 头部信息(这个站不必登陆也可以看所有车型)
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0"
}
# 目标链接:点击第二页,发现pg是2,第三页,pg是3......最后是17 keyword= 这个可有可无
target = "https://www.maodou.com/car/list/all/pg{}"
# 解析数据
def analy(html):
soup = BeautifulSoup(html, "lxml")
divs = soup.find_all("div", class_="car-photo")
for div in divs:
# print(div.img["alt"]) #大众朗逸 2019款 1.5L 自动舒适版 国VI
# print(div.img["data-original"]) # 车的图片
# 保存数据
save(div.img)
# 保存数据
def save(datas):
with open("MaoDouNewCars.csv", "a", newline="", encoding="utf-8-sig") as cf:
writer = csv.writer(cf)
# 写入一页的全部数据
writer.writerow([datas["alt"], datas["data-original"]])
for i in range(18): # 18 = 17 + 1
# 1.发起请求
response = requests.get(url=target.format(i), headers=headers)
# 2.解析数据(此步骤包含了# 3.保存数据)
analy(response.content.decode())
效果如图