Python爬虫初体验之赶集网租房信息获取

原创 2017年07月13日 11:29:28

    初学Python,刚接触了BeautifulSoup模块,就拿爬取赶集网租房信息小试身手,以此彰显Python的威猛强大。

   一、环境配置:

        1、Python 3.6.1 (windows 10 64位系统)

         2.  Pycharm 编译器

  二、相关模块的安装:

        1、bs4 :可通过在shell中pip install bs4 进行安装。

       

      2.  urllib.parse: python自带

      3.  requests :python 自带

      4.  csv:Python 自带

      5.  html5lib:通过pip install html5lib进行安装

三、开始编代码:

      1、导入需要的模块


     2.   指定要爬取的网页地址:

       line 15:上海赶集网的网址(url).{page}和{price}为下文中需要用到的format方法内的参数。page为页数,price为租金价格区间。


      3.  开始爬取前10页,价格区间为800-1500,即price为2的房源信息.



        line19-line21:指定变量初始值

        line22:在当前工作目录下新建一个ganji.csv文件,特别注意参数encoding='gb18030'指定汉字编码,(此处查阅了大量文献,花了半天时间才解决)。newline='' 指定        行与 行之间的分隔符为空,若没有此参数,会默认行与行之间有一个空行。

        line23:指定分隔符为逗号。

        line28:URL.format(page=start_page,price=price),此处使用的是str的format方法。打印出每次循环时爬取的网页地址。

        line29:使用requests模块的get方法获取当前url源码。

        line30:使用bs4模块中的BeautifulSoup方法解析网页。解析的方法为“html.parser”.(应该共有好几种方法可以用,此方法为标准方法,速度适中,解析准确率较高).

     

       4.获取想要的信息:

        打开赶集网租房信息的网页,选项-开发者工具-Inspector。如下图所示:


         可以查看到每个ITEM对应的class 为:f-list------------f-list-item---------------f-list-item-wrap.

         标题、地址、价格分别可以得到,然后进行撸代码,如下图:



        5. 开始运行代码:结果如下图所示:



         这样就得到了,租房信息的标题,房子所在位置,及相对应的url链接。大功告成!吐舌头


版权声明:本文为博主原创文章,未经博主允许不得转载。

sklearn 0.17 版本 方法过时问题

sklearn 方法过时 MultiLabelBinarizer
  • frone
  • frone
  • 2017年06月28日 17:52
  • 324

十大 python 可视化第三方包

浏览一下Python程序库目录你会发现无论要画什么图,都能找到相对的库——从适用于眼球移动研究的GazeParser,到用于可视化实时神经网络训练过程的pastalog。有许多库只完成非常特定的任务,...

抓取赶集网租房信息 python3

try: from bs4 import BeautifulSoup import requests except Exception : print("请安装 bs4库 和...

Python2 Python3 爬取赶集网租房信息,带源码分析

*之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是...

爬虫之刃----赶集网招聘类爬取案例详解(系列四)

前言本篇承袭之前的系列文章,开始动真格。以赶集网招聘类信息爬取为例,详细解说爬虫程序构建过程。准备工作: 阅读之前的系列一、系列二、系列三,有一定递进关系 登陆赶集网,了解下“地形” OK,let’s...

赶集网招聘信息数据分析与可视化

一、使用python编写爬虫——使用urllib库下载网页,使用xpath解析 提取页面中我们所需的信息,公司名称、薪资待遇、工作地点、工作经验、最低学历、招聘人数、公司规模,然后结构化输出到txt...

仿赶集网58地方分类信息

  • 2013年09月28日 17:12
  • 13.08MB
  • 下载

推荐阅读:《我在赶集网的两个月(完整版)》

http://www.cnblogs.com/zhengyun_ustc/archive/2011/07/13/2104826.html引子:很好的一个流水帐,很好的一个实习生案例,很好的一个职场现身...

58网和赶集网最新信息监控提醒

  • 2017年05月24日 21:31
  • 192KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python爬虫初体验之赶集网租房信息获取
举报原因:
原因补充:

(最多只允许输入30个字)