Python爬虫初体验之赶集网租房信息获取

原创 2017年07月13日 11:29:28

    初学Python,刚接触了BeautifulSoup模块,就拿爬取赶集网租房信息小试身手,以此彰显Python的威猛强大。

   一、环境配置:

        1、Python 3.6.1 (windows 10 64位系统)

         2.  Pycharm 编译器

  二、相关模块的安装:

        1、bs4 :可通过在shell中pip install bs4 进行安装。

       

      2.  urllib.parse: python自带

      3.  requests :python 自带

      4.  csv:Python 自带

      5.  html5lib:通过pip install html5lib进行安装

三、开始编代码:

      1、导入需要的模块


     2.   指定要爬取的网页地址:

       line 15:上海赶集网的网址(url).{page}和{price}为下文中需要用到的format方法内的参数。page为页数,price为租金价格区间。


      3.  开始爬取前10页,价格区间为800-1500,即price为2的房源信息.



        line19-line21:指定变量初始值

        line22:在当前工作目录下新建一个ganji.csv文件,特别注意参数encoding='gb18030'指定汉字编码,(此处查阅了大量文献,花了半天时间才解决)。newline='' 指定        行与 行之间的分隔符为空,若没有此参数,会默认行与行之间有一个空行。

        line23:指定分隔符为逗号。

        line28:URL.format(page=start_page,price=price),此处使用的是str的format方法。打印出每次循环时爬取的网页地址。

        line29:使用requests模块的get方法获取当前url源码。

        line30:使用bs4模块中的BeautifulSoup方法解析网页。解析的方法为“html.parser”.(应该共有好几种方法可以用,此方法为标准方法,速度适中,解析准确率较高).

     

       4.获取想要的信息:

        打开赶集网租房信息的网页,选项-开发者工具-Inspector。如下图所示:


         可以查看到每个ITEM对应的class 为:f-list------------f-list-item---------------f-list-item-wrap.

         标题、地址、价格分别可以得到,然后进行撸代码,如下图:



        5. 开始运行代码:结果如下图所示:



         这样就得到了,租房信息的标题,房子所在位置,及相对应的url链接。大功告成!吐舌头


版权声明:本文为博主原创文章,未经博主允许不得转载。

python写爬虫4-多线程爬虫(采集58出租房信息)

python写爬虫4-多线程爬虫(采集58出租房信息) 本文代码是在【python写爬虫3-MongoDB数据缓存(采集58出租房信息)】http://blog.csdn.net/apple9...
  • apple9005
  • apple9005
  • 2017年02月11日 21:34
  • 1243

抓取赶集网租房信息 python3

try: from bs4 import BeautifulSoup import requests except Exception : print("请安装 bs4库 和...
  • w739639550
  • w739639550
  • 2017年07月27日 13:01
  • 363

Python2 Python3 爬取赶集网租房信息,带源码分析

*之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是...
  • FontThrone
  • FontThrone
  • 2017年04月23日 23:18
  • 2337

Python爬虫入门 | 5 爬取小猪短租租房信息

小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据。小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题按照惯例...
  • DataCastle
  • DataCastle
  • 2017年12月15日 14:15
  • 419

四周实现爬虫系统(2)---爬取租房信息

爬取小猪短租网 –300个详情页租房信息 1.实现每个租房详情页信息爬取 2.编写函数实现租房列表页网址获取 3.实现300个详情页租房信息from bs4 import BeautifulSo...
  • u010004460
  • u010004460
  • 2016年10月13日 17:08
  • 1365

分享自制采集赶集网二手车数据爬虫

  • 2017年09月05日 19:55
  • 6KB
  • 下载

利用python网络爬虫爬取赶集网数据

import csv import requests import re headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64)...
  • liforpython
  • liforpython
  • 2017年07月20日 08:35
  • 917

养只爬虫当宠物(Node.js爬虫爬取58同城租房信息)

先上一个源代码吧。https://github.com/answershuto/Rental欢迎指导交流。效果图 搭建Node.js环境及启动服务安装node以及npm,用express模块...
  • answershuto
  • answershuto
  • 2016年10月31日 11:03
  • 707

python 爬虫抓取19楼租房信息

查看19lou.com的Cookiechrome中打开19lou.com,按F12可以打开开发者工具查看 不获取Cookie会导致爬取网站时重定向而抓不到内容定义headersheaders =...
  • jaysonhu
  • jaysonhu
  • 2016年05月21日 17:39
  • 790

Python爬链家网租房信息

爬去链家网的租房信息然后存储到数据库中。 #-*- coding:utf-8 -*- import requests import re import random import MySQL...
  • qq1124794084
  • qq1124794084
  • 2016年12月31日 22:18
  • 1506
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python爬虫初体验之赶集网租房信息获取
举报原因:
原因补充:

(最多只允许输入30个字)