python爬虫requests源码链家_Python 爬虫链家二手房（自行输入城市爬取）

最新推荐文章于 2023-03-30 11:12:38 发布

weixin_39605278

最新推荐文章于 2023-03-30 11:12:38 发布

阅读量315

点赞数

文章标签： python爬虫requests源码链家

因同事想在沈阳买房，对比分析沈阳各区的房价，让我帮忙爬取一下链家网相关数据，然后打算记下笔记用于总结学到的东西&用到的东西。

一.爬虫需要会什么？

学习东西首先你要知道它是干嘛的。爬虫顾名思义就是爬取你所看到的网页内容小说/新闻/信息等。而网页相关的也就是 HTML 学过网页的最清楚不过了。 HTML(超文本标记语言) 用各种标签来识别内容，浏览器会翻译成所看到的网页页面，HTML只是个基础展示的只是静态的网页(也就是不会动的陈列好的网页) 还需要美化的CSS 和实现动态的JavaScipt。想学习的可以参考 HTML 基础 | 菜鸟教程。做爬虫也不需要了解学习很多，只需要了解HTML是基于文档对象模型（ＤＯＭ）的，以树的结构，存储各种标记。

接下来就是python(我用的是python3.6) 中爬虫相关的辅助库

Requests库比较好用的HTTP库

BeautifulSoup库优秀的HTML/XML解析库，采用来做爬虫该库解析时需要个解析器 lxml

辅助的还有很多由于本文只用到这两个同时这两个基本足够了，有兴趣的可以百度学习别的。

二.爬虫实例(链家二手房)：

1.URL(统一资源定位符也称为网页地址)：链家二手房

像标题所言自行输入城市并不是所有的爬虫都通用要找到每个url 之间的规律，如下

很明显可以看出规律 https:// + city + .lianjia.com/ershoufang/pg +页码+/

由于基本最多页码就100页也就不需要自己输入页码(在程序中循环替换页码) 故笔记中 url则为

单页url:

a=1

url ='http://' + user_in_city +'.lianjia.com/ershoufang/pg{}/'

url1.url.format(a)

(或者直接写)

url ='http://' + user_in_city +'.lianjia.com/ershoufang/pg1/'

循环url:

user_in_city='sy'

url ='http://' + user_in_city +'.lianjia.com/ershoufang/pg{}/'

for a in range(1, 101):

url1 = url.format(a)

print(url1)

2.Request

我们可以requests.get(url) 来 Get该网页从而获取该html内容

import requests

url = 'http://sy.lianjia.com/ershoufang/pg1/'

page = requests.get(url)

print(page)

但是实践以后该网站会报错 403 服务器拒绝访问

这就需要我们添加headers 模仿浏览器访问，就变成下面代码

header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}

page = requests.get(url1, headers=header)

a=page.text

print(a)

640daaaa0946

网页HTML.png

3.BeautifulSoup

BeautifulSoup 作为优秀的HTML/XML解析库方便又简单

640daaaa0946

代码.png

如上图所见，点击小红色框框的三角选中网页上的模块，阴影部分会自动跳到该模块的标签位置（大红色框框）可以把该部分的标签粘贴到本地方便查看。

import requests

from bs4 import BeautifulSoup

url = 'http://sy.lianjia.com/ershoufang/pg1/'

header = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}

page = requests.get(url, headers=header) #访问网址获取该 html内容

a = page.text

soup = BeautifulSoup(a,"lxml") #解析该网页内容

b=soup.find_all('div',class_='info clear') #find_all 找到 div class='info clear' 的标签

print(b)

爬取的内容就是我们需要的全部内容中间会掺杂一些标签

6.去除标签

640daaaa0946

标签.png

图片中我们可以看到爬取出来中还掺杂许多标签，而我们只需要文字，然后我想到了正则（可惜我不会，哈哈哈哈，有会的大神可以教教我）

但笨人有笨方法：我们一个一个解析取文字

像图片中【枫合万嘉南北通透...】我们可以看出是 div标签 class='title' 的。（因为每页有很多个房源信息所以我们要 for 循环）

其它标签亦然如此

640daaaa0946

去标签.png

我们还要爬出导入excle ,因此我在一个房源所有信息中加入[,] 方便我们后续分列透视（只列出两个标签）

640daaaa0946

分列.png

7.标签去除掉就要导入文件

with open("链家-沈阳-二手房-over", "a", encoding='utf-8') as f:

f.write(df+'\n')

我导入的是txt 文本，有需要可以导入 Excle Csv

8.分析数据（同事分析的一小部分数据）

640daaaa0946

分析.png

9.源代码

##author:Abel_chen

##防止你们照搬我做了两个小错误偷笑.jpg

import requests

from bs4 import BeautifulSoup

def one_page_code(user_in_city):

url = 'http://' + user_in_city + '.lianjia.com/ershoufang/pg{}/'

for a in range(1, 101):

url1 = url.format(a)

header = {'User-Agent': '*********'}

page = requests.get(url1, headers=header)

a=page.text

soup = BeautifulSoup(a,"lxml")

for b in soup.find_all('div',class_='info clears'):

for wz in b.find_all('div',class_='title'):

wz=wz.get_text()

for ad in b.find_all('div',class_='address'):

ad=ad.get_text()

for ys in b.find_all('div',class_='flood'):

ys=ys.get_text()

for sj in b.find_all('div',class_='followInfo'):

sj=sj.get_text()

for tag in b.find_all('div',class_='tag'):

tag=tag.get_text()

for jg in b.find_all('div',class_='priceInfo'):

jg=jg.get_text()

df=wz + ',' + ad + ',' + ys + ',' + sj + ',' + tag + ',' + jg

with open("链家-沈阳-二手房-over", "a", encoding='utf-8') as f:

f.write(df+'\n')

def main():

user_in_city = input('输入爬取城市：')

one_page_code( user_in_city)

if __name__ == '__main__':

main()

weixin_39605278

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫requests源码链家_Python 爬虫链家二手房（自行输入城市爬取）

因同事想在沈阳买房，对比分析沈阳各区的房价，让我帮忙爬取一下链家网相关数据，然后打算记下笔记用于总结学到的东西&用到的东西。一.爬虫需要会什么？学习东西首先你要知道它是干嘛的。爬虫顾名思义就是爬取你所看到的网页内容小说/新闻/信息等。而网页相关的也就是 HTML 学过网页的最清楚不过了。 HTML(超文本标记语言) 用各种标签来识别内容，浏览器会翻译成所看到的网页页面，HTML只是个基础...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。