利用python程序抓爬网页，获取城市楼市价格（Python学习实例二）

keith0812

于 2017-12-07 19:57:15 发布

阅读量2k

点赞数 2

本文链接：https://blog.csdn.net/keith0812/article/details/78744110

版权

一、本文实现目的通过Python语言抓取某房地产网页楼盘数据，用于后期楼盘分析。 1、最后输出：某城市楼盘信息（即excel表格）。 2、页面解析方法：正则表达式 + lxml第三方包二、详细代码 1、网页解析方法详解（本文只对使用到的两种解析方法进行讲解，别的方法后期使用时再补充） 1）、正则表达式

摘要由CSDN通过智能技术生成

一、本文实现目的

通过Python语言抓取某房地产网页楼盘数据，用于后期楼盘分析。

1、最后输出：某城市楼盘信息（即excel表格）。

2、页面解析方法：正则表达式 + lxml第三方包

二、详细代码

1、网页解析方法详解（本文只对使用到的两种解析方法进行讲解，别的方法后期使用时再补充）

1）、正则表达式

主要原理是通过正则匹配，查询网页源代码中符合条件的数据，并把其提取出来。

如：下面这段代码，实现了在html这个对象（某个网页的源代码）中匹配有多少给“item-mod”字符串。

其中findall方法，要求匹配完html对象中的全部元素。

    h = r"item-mod" #正则代码
    h_re = re.compile(h) #生成正则
    href_all = h_re.findall(html)·

若需匹配字符串不确定，可以用正则表达式中的特定字符进行代替，如下面代码，通过[0-9]+代替数字进行匹配。

    lppriceh = r"<span>[0-9]+</span>"
    lppriceh_re = re.compile(lppriceh)

最低0.47元/天解锁文章

keith0812

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
利用python程序抓爬网页，获取城市楼市价格（Python学习实例二）

一、本文实现目的通过Python语言抓取某房地产网页楼盘数据，用于后期楼盘分析。 1、最后输出：某城市楼盘信息（即excel表格）。 2、页面解析方法：正则表达式 + lxml第三方包二、详细代码 1、网页解析方法详解（本文只对使用到的两种解析方法进行讲解，别的方法后期使用时再补充） 1）、正则表达式
复制链接

扫一扫