Python爬虫实战:BeautifulSoup库&requests库-抓取链家网广州二手房信息

本文介绍了使用Python的BeautifulSoup库和requests库抓取链家网广州二手房信息的过程,包括理解网页结构、设置头部信息、网页抓取、信息提取和数据清洗,最终将数据保存为CSV文件。
摘要由CSDN通过智能技术生成

BeautifulSoup的中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
最近学会了python的简单爬虫,就抓取一下链家网的二手房信息小试牛刀~

总结写在前头:

看URL结构→看提取信息的源代码→爬取并存进dataframe→清洗,变成能用的数据→写进CSV
会简单的使用BeautifulSoup库和requests库
爬取某一个网页的某一个信息得知道他的源代码
merge用来粘合两个dataframe
del用来删除dataframe的某一列
str(int)用来将数字转化为字符串,且‘’+‘’用于快速连接字符串
(获取字符串这里仍存在疑问)

1.所用到的库:

import requests
import time   #负责设置每次抓取的休息时间,速度太快会被封IP
from bs4 import BeautifulSoup
import warnings 
import pandas as pd

2.了解抓取网页的结构

url:https://gz.lianjia.com/ershoufang/ (第一页)
https://gz.lianjia.com/ershoufang/pg2/ (第二页之后)
gz为城市名
ershoufang(二手房)为众多分区之一
pgX/为显示当前为第几页,网站共显示100页

3.设置头部信息或添加代理

可以防止频繁访问被封IP

headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1) Apple
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值