2024年Python最全小牧用Python 爬取数万条房产数据,揭秘一线城市生存压力有多大,2024年最新mysql面试题

做了那么多年开发,自学了很多门编程语言,我很明白学习资源对于学一门新语言的重要性,这些年也收藏了不少的Python干货,对我来说这些东西确实已经用不到了,但对于准备自学Python的人来说,或许它就是一个宝藏,可以给你省去很多的时间和精力。

别在网上瞎学了,我最近也做了一些资源的更新,只要你是我的粉丝,这期福利你都可拿走。

我先来介绍一下这些东西怎么用,文末抱走。


(1)Python所有方向的学习路线(新版)

这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

最近我才对这些路线做了一下新的更新,知识体系更全面了。

在这里插入图片描述

(2)Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

(3)100多个练手项目

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。

在这里插入图片描述

(4)200多本电子书

这些年我也收藏了很多电子书,大概200多本,有时候带实体书不方便的话,我就会去打开电子书看看,书籍可不一定比视频教程差,尤其是权威的技术书籍。

基本上主流的和经典的都有,这里我就不放图了,版权问题,个人看看是没有问题的。

(5)Python知识点汇总

知识点汇总有点像学习路线,但与学习路线不同的点就在于,知识点汇总更为细致,里面包含了对具体知识点的简单说明,而我们的学习路线则更为抽象和简单,只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

(6)其他资料

还有其他的一些东西,比如说我自己出的Python入门图文类教程,没有电脑的时候用手机也可以学习知识,学会了理论之后再去敲代码实践验证,还有Python中文版的库资料、MySQL和HTML标签大全等等,这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西,但对于没有资源或者资源不是很好的学习者来说确实很不错,你要是用得到的话都可以直接抱走,关注过我的人都知道,这些都是可以拿到的。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 数据可视化:pyecharts

  • 数据库:MongoDB

  • 数据库连接:PyMongo

首先右键网页,查看页面源码,找出我们要爬取的部分。

代码实现,由于篇幅原因只展示主要代码:(获取一个页面的数据)

def getOnePageData(self, pageUrl, reginon=“不限”):

rent = self.getCollection(self.region)

self.session.headers.update({

‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36’})

res = self.session.get(

pageUrl

)

soup = BeautifulSoup(res.text, “html.parser”)

divs = soup.find_all(“dd”, attrs={“class”: “info rel”}) # 获取需要爬取得 div

for div in divs:

ps = div.find_all(“p”)

try: # 捕获异常,因为页面中有些数据没有被填写完整,或者被插入了一条广告,则会没有相应的标签,所以会报错

for index, p in enumerate(ps): # 从源码中可以看出,每一条 p 标签都有我们想要的信息,故在此遍历 p 标签,

text = p.text.strip()

print(text) # 输出看看是否为我们想要的信息

print(“===================================”)

爬取并存进 MongoDB 数据库

roomMsg = ps[1].text.split(“|”)

rentMsg 这样处理是因为有些信息未填写完整,导致对象报空

area = roomMsg[2].strip()[:len(roomMsg[2]) - 2]

rentMsg = self.getRentMsg(

ps[0].text.strip(),

roomMsg[1].strip(),

int(float(area)),

int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]),

ps[2].text.strip(),

ps[3].text.strip(),

ps[2].text.strip()[:2],

roomMsg[3],

)

rent.insert(rentMsg)

except:

continue

数据分析:

求一个区的房租单价(平方米/元)

def getAvgPrice(self, region):

areaPinYin = self.getPinyin(region=region)

collection = self.zfdb[areaPinYin]

totalPrice = collection.aggregate([{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …oup': {'_id': 'region’, ‘total_price’: {‘ s u m ′ : ′ sum': ' sum:price’}}}])

totalArea = collection.aggregate([{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …oup': {'_id': 'region’, ‘total_area’: {‘ s u m ′ : ′ sum': ' sum:area’}}}])

totalPrice2 = list(totalPrice)[0][“total_price”]

totalArea2 = list(totalArea)[0][“total_area”]

return totalPrice2 / totalArea2

获取各个区 每个月一平方米需要多少钱

def getTotalAvgPrice(self):

totalAvgPriceList = []

totalAvgPriceDirList = []

for index, region in enumerate(self.getAreaList()):

avgPrice = self.getAvgPrice(region)

totalAvgPriceList.append(round(avgPrice, 3))

totalAvgPriceDirList.append({“value”: round(avgPrice, 3), “name”: region + " " + str(round(avgPrice, 3))})

return totalAvgPriceDirList

获取各个区 每一天一平方米需要多少钱

def getTotalAvgPricePerDay(self):

totalAvgPriceList = []

for index, region in enumerate(self.getAreaList()):

avgPrice = self.getAvgPrice(region)

totalAvgPriceList.append(round(avgPrice / 30, 3))

return (self.getAreaList(), totalAvgPriceList)

获取各区统计样本数量

def getAnalycisNum(self):

analycisList = []

for index, region in enumerate(self.getAreaList()):

collection = self.zfdb[self.pinyinDir[region]]

print(region)

totalNum = collection.aggregate([{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'total_num': {'sum’: 1}}}])

totalNum2 = list(totalNum)[0][“total_num”]

analycisList.append(totalNum2)

return (self.getAreaList(), analycisList)

获取各个区的房源比重

def getAreaWeight(self):

result = self.zfdb.rent.aggregate([{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …oup': {'_id': 'region’, ‘weight’: {‘$sum’: 1}}}])

areaName = []

areaWeight = []

for item in result:

if item[“_id”] in self.getAreaList():

areaWeight.append(item[“weight”])

areaName.append(item[“_id”])

print(item[“_id”])

print(item[“weight”])

print(type(item))

return (areaName, areaWeight)

获取 title 数据,用于构建词云

def getTitle(self):

collection = self.zfdb[“rent”]

queryArgs = {}

projectionFields = {‘_id’: False, ‘title’: True} # 用字典指定需要的字段

searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)

content = ‘’

for result in searchRes:

print(result[“title”])

content += result[“title”]

return content

获取户型数据(例如:3 室 2 厅)

def getRooms(self):

results = self.zfdb.rent.aggregate([{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …oup': {'_id': 'rooms’, ‘weight’: {‘$sum’: 1}}}])

roomList = []

weightList = []

for result in results:

roomList.append(result[“_id”])

weightList.append(result[“weight”])

print(list(result))

return (roomList, weightList)

获取租房面积

def getAcreage(self):

results0_30 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 0, ‘$lte’: 30}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results30_60 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 30, ‘$lte’: 60}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results60_90 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 60, ‘$lte’: 90}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results90_120 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 90, ‘$lte’: 120}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results120_200 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 120, ‘$lte’: 200}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results200_300 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 200, ‘$lte’: 300}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results300_400 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 300, ‘$lte’: 400}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results400_10000 = self.zfdb.rent.aggregate([

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …h': {'area': {'gt’: 300, ‘$lte’: 10000}}},

{‘KaTeX parse error: Expected '}', got 'EOF' at end of input: …'', 'count': {'sum’: 1}}}

])

results0_30_ = list(results0_30)[0][“count”]

results30_60_ = list(results30_60)[0][“count”]

results60_90_ = list(results60_90)[0][“count”]

results90_120_ = list(results90_120)[0][“count”]

results120_200_ = list(results120_200)[0][“count”]

results200_300_ = list(results200_300)[0][“count”]

results300_400_ = list(results300_400)[0][“count”]

results400_10000_ = list(results400_10000)[0][“count”]

attr = [“0-30平方米”, “30-60平方米”, “60-90平方米”, “90-120平方米”, “120-200平方米”, “200-300平方米”, “300-400平方米”, “400+平方米”]

value = [

results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_

]

return (attr, value)

数据展示:

展示饼图

def showPie(self, title, attr, value):

from pyecharts import Pie

pie = Pie(title)

pie.add(“aa”, attr, value, is_label_show=True)

pie.render()

展示矩形树图

def showTreeMap(self, title, data):

from pyecharts import TreeMap

data = data

treemap = TreeMap(title, width=1200, height=600)

treemap.add(“深圳”, data, is_label_show=True, label_pos=‘inside’, label_text_size=19)

treemap.render()

展示条形图

def showLine(self, title, attr, value):

from pyecharts import Bar

bar = Bar(title)

bar.add(“深圳”, attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,

xaxis_interval=0, xaxis_label_textsize=9,

legend_text_size=18, label_text_color=[“#000”])

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 28
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值