年前偷懒,写的文章《python爬虫刨北上广深的房价来看看》里,爬虫脚本写得水得一批,今天翻看了一下有点受不了,花了点时间重新码了一下,主要是把其中区划获取和页数获取问题解决了,现在就不会每个区域最多取3000套房源的问题了。
一、脚本
先上脚本再说
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
#解析网页
def get_html(url):
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
res = requests.get(url,headers = headers)
code = res.status_code
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'lxml')
return soup,code
#取出价格
def get_data(soup,list_price):
items = soup.select('ul[class="sellListContent"] div[class="priceInfo"]')
#print(items)
for item in items:
try:
item.text
try:
list_price.append(item.select(<