通过简单的requests 、findall、pandas使用,查询到某区域的房源,并通过pandas 整理记录到excel文件,为以后进一步处理做准备。
第一部分、导入模块
from collections import defaultdict
import requests
import pandas as pd
from bs4 import BeautifulSoup
from lxml import etree
import re
global data_list,cc
data_list=pd.DataFrame()
第二 分析网页数据
选取的是长沙望城区金星北区域的二手房源
有新房广告,要剔除。新房不是二手房,影响数据分类,另外,在提取数据时,新房房源的数据格式、内容与二手房不完全一致,造成多收或漏收数据。
表头,通过F12查到