3.2 代码实现(Python)
1 序言
1.1 生存压力带来的哲思
马尔萨斯最早发现,生物按照几何级数高度增殖的天赋能力,总是大于他们的实际生存能力或现实生存群量,依次推想,生物的种内竞争一定是极端残酷且无可避免。姑且不论马尔萨斯是否有必要给人类提出相应的警告,仅是这一现象中隐含的一系列基础问题,譬如,生物的超量繁殖能力的自然限度何在?种内竞争的幸存者依靠什么优势来取胜?以及这些所谓的优势群体如何将自己引向何方?等等,就足以引起任何一位有思想的人不能不怵然(恐惧)深思。
后来,达尔文在他的那部划时代的《物种起源》一书的绪论中,特意提及马尔萨斯学说的科学贡献和启迪作用,可见要成为那个马老教士的知音,并不是一般人够资格的!
1.2 买房&房奴
现在结婚,女方一般要求男方有房有车,其实也不能怪人家女孩子,在社会社会高度发展、动荡的今天,这个要求确实不高。奈何改革开放以来,阶级固化,吾辈难矣!先看看贵阳房价(链家新房:https://gy.fang.lianjia.com/)
不能被时代淘汰了,不能总唉声叹气的,白手起家的的大资本家寥寥无几,人家刘强东就是一个。偶像归偶像,回到现实中来吧,农村孩子,可能买了房,就可能是一辈子的房奴,回到农村,表面光鲜亮丽的被别人崇拜着,心里的苦和委屈只有自己知道。鉴于此,我个人不想做房奴车奴,快乐是自己的,生活是自己的,活出自己的精彩,不是活给别人看的,我想让自己命运的旖旎风景绚丽多姿,现阶段要做的是提升自己能力,不想做房奴!
心血澎湃,感叹完了,该回到今天的主题。何不把这些数据弄到一个文档表格里面分析分析,说干就干,就用爬虫爬取吧,然后写入文档。
2 爬虫
2.1 基本概念
_网络爬虫(Crawler):_又称网络蜘蛛,或者网络机器人(Robots). 它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。换句话来说,它可以根据网页的链接地址自动获取网页内容。如果把互联网比做一个大蜘蛛网,它里面有许许多多的网页,网络蜘蛛可以获取所有网页的内容。
_爬虫_是一个模拟人类请求网站行为, 并批量下载网站资源的一种程序或自动化脚本。
爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
资源:机器成本与人力成本的总和。
2.2 爬虫的基本流程
(1)请求网页:
通过 HTTP 库向目标站点发起请求,即发送一个 Request,请求可以包含额外的 headers 等
信息,等待服务器响应!
(2)获得相应内容:
如果服务器能正常响应,会得到一个 Response,Response 的内容便是所要获取的页面内容,类型可能有 HTML,Json 字符串,二进制数据(如图片视频)等类型。
(3)解析内容:
得到的内容可能是 HTML,可以用正则表达式、网页解析库进行解析。可能是 Json,可以
直接转为 Json 对象解析,可能是二进制数据,可以做保存或者进一步的处理。
(4)存储解析的数据:
保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件
测试案例:
代码 实现: 爬取贵阳房价的页面数据
#导 包===
import requests
#=step_1 : 指 定 url=====
url = ‘https://gy.fang.lianjia.com/ /’
#=step_2 : 发 起 请 求 :==
#使 用 get 方 法 发 起 get 请 求 , 该 方 法 会 返 回 一 个 响 应 对 象 。 参 数 url 表 示 请 求 对 应 的 url
response = requests . get ( url = url )
#===step_3 : 获 取 响 应 数 据 :=
#通 过 调 用 响 应 对 象 的 text 属 性 , 返 回 响 应 对 象 中 存 储 的 字 符 串 形 式 的 响 应 数 据 ( 页 面 源 码数 据 )
page_text = response . text
#step_4 : 持 久 化 存 储===
with open ('贵阳房价 . html ',‘w’, encoding =‘utf -8’) as fp:
fp.write ( page_text )
print (’ 爬 取 数 据 完 毕 !!!')
爬 取 数 据 完 毕 !!!
Process finished with exit code 0
3 爬取贵阳房价并写入表格
3.1 结果展示
3.2 代码实现(Python)
#导入相关库================
from bs4 import BeautifulSoup
import numpy as np
import requests
from requests.exceptions import RequestException
import pandas as pd
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。