爬虫——爬取贵阳房价，Python基础_贵阳房价数据csv格式python-CSDN博客

本文链接：https://blog.csdn.net/2401_83621661/article/details/137205691

3.2 代码实现（Python）

1 序言

1.1 生存压力带来的哲思

马尔萨斯最早发现，生物按照几何级数高度增殖的天赋能力，总是大于他们的实际生存能力或现实生存群量，依次推想，生物的种内竞争一定是极端残酷且无可避免。姑且不论马尔萨斯是否有必要给人类提出相应的警告，仅是这一现象中隐含的一系列基础问题，譬如，生物的超量繁殖能力的自然限度何在？种内竞争的幸存者依靠什么优势来取胜？以及这些所谓的优势群体如何将自己引向何方？等等，就足以引起任何一位有思想的人不能不怵然（恐惧）深思。

后来，达尔文在他的那部划时代的《物种起源》一书的绪论中，特意提及马尔萨斯学说的科学贡献和启迪作用，可见要成为那个马老教士的知音，并不是一般人够资格的！

1.2 买房&房奴

现在结婚，女方一般要求男方有房有车，其实也不能怪人家女孩子，在社会社会高度发展、动荡的今天，这个要求确实不高。奈何改革开放以来，阶级固化，吾辈难矣！先看看贵阳房价（链家新房：https://gy.fang.lianjia.com/）

不能被时代淘汰了，不能总唉声叹气的，白手起家的的大资本家寥寥无几，人家刘强东就是一个。偶像归偶像，回到现实中来吧，农村孩子，可能买了房，就可能是一辈子的房奴，回到农村，表面光鲜亮丽的被别人崇拜着，心里的苦和委屈只有自己知道。鉴于此，我个人不想做房奴车奴，快乐是自己的，生活是自己的，活出自己的精彩，不是活给别人看的，我想让自己命运的旖旎风景绚丽多姿，现阶段要做的是提升自己能力，不想做房奴！

心血澎湃，感叹完了，该回到今天的主题。何不把这些数据弄到一个文档表格里面分析分析，说干就干，就用爬虫爬取吧，然后写入文档。

2 爬虫

2.1 基本概念

_网络爬虫（Crawler）：_又称网络蜘蛛，或者网络机器人（Robots）. 它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。换句话来说，它可以根据网页的链接地址自动获取网页内容。如果把互联网比做一个大蜘蛛网，它里面有许许多多的网页，网络蜘蛛可以获取所有网页的内容。

_爬虫_是一个模拟人类请求网站行为, 并批量下载网站资源的一种程序或自动化脚本。

爬虫：使用任何技术手段，批量获取网站信息的一种方式。关键在于批量。

反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。

误伤：在反爬虫的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。

拦截：成功地阻止爬虫访问。这里会有拦截率的概念。通常来说，拦截率越高的反爬虫策略，误伤的可能性就越高。因此需要做个权衡。

资源：机器成本与人力成本的总和。

2.2 爬虫的基本流程

(1)请求网页:

通过 HTTP 库向目标站点发起请求，即发送一个 Request，请求可以包含额外的 headers 等

信息，等待服务器响应!

(2)获得相应内容:

如果服务器能正常响应，会得到一个 Response，Response 的内容便是所要获取的页面内容，类型可能有 HTML，Json 字符串，二进制数据（如图片视频）等类型。

(3)解析内容:

得到的内容可能是 HTML，可以用正则表达式、网页解析库进行解析。可能是 Json，可以

直接转为 Json 对象解析，可能是二进制数据，可以做保存或者进一步的处理。

(4)存储解析的数据:

保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件

测试案例:

代码实现: 爬取贵阳房价的页面数据

#导包===

import requests

#=step_1 : 指定 url=====

url = ‘https://gy.fang.lianjia.com/ /’

#=step_2 : 发起请求 :==

#使用 get 方法发起 get 请求，该方法会返回一个响应对象。参数 url 表示请求对应的 url

response = requests . get ( url = url )

#===step_3 : 获取响应数据 :=

#通过调用响应对象的 text 属性，返回响应对象中存储的字符串形式的响应数据（页面源码数据）

page_text = response . text

#step_4 : 持久化存储===

with open ('贵阳房价 . html ',‘w’, encoding =‘utf -8’) as fp:

fp.write ( page_text )

print (’ 爬取数据完毕 !!!')

爬取数据完毕 !!!

Process finished with exit code 0

3 爬取贵阳房价并写入表格

3.1 结果展示

3.2 代码实现（Python）

#导入相关库================

from bs4 import BeautifulSoup

import numpy as np

import requests

from requests.exceptions import RequestException

import pandas as pd

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。