使用Python爬取网页里的具体房价

目录 

    一.创建一个新目录

  1. 创建 LXML目录
  2. 新建python文件
  3. 命名python文件名

   二.打开终端

  1. 使用pip 安装lxml
  2. 完成后lxml库导入etree包

lxml库是Python中一一个强大的XML处理库,支持HTML和XML的解析,支持XPath解析方式。

LXML库的主要优点是易于使用,在解析大型文档时速度非常快,归档的也非常好,并且提供了简单的转换方法来将数据转换为Python数据类型,从而使文件操作更容易。

    3.先打个包

    4.利用for循环的方式来设置需要爬取的数据量

    5.发生请求

    6.提取数据

    7.用xpath提取数据,列表类型


小编先分享几个关于爬虫的基础知识的网站
 

崔庆才爬虫博客(先看) http://cuiqingcai.com/1052.html
廖雪峰python学习网站 http://www.liaoxuefeng.c/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000
爬虫实例http://cuiqingcai.com/4352.html
知乎小白爬虫具体案例+分析 https://www.zhihu.com/collection/159805421
知乎爬虫之知识集锦 (遇到问题时再看) https://zhuanlan.zhihu.com/p/21479334

问题描述:我有一个朋友,最近想买房,想要与自己的房子度过一生。于是我作为朋友两肋插刀,正义的化身,决定为其充满魔幻现实的人生再添加一抹亮色,让她深陷其中无法自拔,帮她用Python获取了属于自己的house

  1. 首先我们先新建LXMl目录

并且将目录命名为LXML

    2.在LXML目录下新建python文件

命名python文件名为爬取具体房价(小编这里是不建议大家中文命名的哈!!很容易报错)

   3.打开终端

  • pip安装lxml,requests,pandas

pip install lxml

pip install requests

pip install pandas

              

lxml库是Python中一一个强大的XML处理库,支持HTML和XML的解析,支持XPath解析方式。

LXML库的主要优点是易于使用,在解析大型文档时速度非常快,归档的也非常好,并且提供了简单的转换方法来将数据转换为Python数据类型,从而使文件操作更容易。

  •       等待三个库安装完毕
  • 使用requests库请求网页内容
  • 导入lxml库的etree包

       

  • 使用pandas库快速分析数据
  • 利用for循环的方式来设置需要爬取的数据量
  • 获取url地址 目标地址
  • 因为字符和网页网址不能同步存在所以需要用str
  • 发生请求
  • 提取数据
  • 1:用etree的方式获取数据
  • 2:用xpath的方法获取数据
  • 设置一个空的列表,作为爬取信息的容器
  • 开始爬取信息
  • 运行一下 成功!!
  • 完整代码

       这样我们就成功爬虫house价格咯!!

      今天的分享就到此为止咯!谢谢大家的喜欢,我们下周再见!

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值