一、本文实现目的
通过Python语言抓取某房地产网页楼盘数据,用于后期楼盘分析。
1、最后输出:某城市楼盘信息(即excel表格)。
2、页面解析方法:正则表达式 + lxml第三方包
二、详细代码
1、网页解析方法详解(本文只对使用到的两种解析方法进行讲解,别的方法后期使用时再补充)
1)、正则表达式
主要原理是通过正则匹配,查询网页源代码中符合条件的数据,并把其提取出来。
如:下面这段代码,实现了在html这个对象(某个网页的源代码)中匹配有多少给“item-mod”字符串。
其中findall方法,要求匹配完html对象中的全部元素。
h = r"item-mod" #正则代码
h_re = re.compile(h) #生成正则
href_all = h_re.findall(html)·
若需匹配字符串不确定,可以用正则表达式中的特定字符进行代替,如下面代码,通过[0-9]+代替数字进行匹配。
lppriceh = r"<span>[0-9]+</span>"
lppriceh_re = re.compile(lppriceh)