python爬取网站数据（含代码和讲解）

最新推荐文章于 2025-03-03 11:10:14 发布

程序员不熬夜i

最新推荐文章于 2025-03-03 11:10:14 发布

阅读量2.7k

点赞数 22

分类专栏： Python 文章标签： python 数据挖掘 Python入门 javascript jupyter

本文链接：https://blog.csdn.net/m0_59235508/article/details/134873582

版权

提示：本次爬取是利用xpath进行，按文章的顺序走就OK的；

文章目录

前言

一、数据采集的准备

1.观察url规律

2.设定爬取位置和路径（xpath）

二、数据采集

1. 建立存放数据的dataframe

2. 开始爬取

3. 把数据导出成csv表格

总结

前言

这次爬取的网站是房天下网站；

其中包含很多楼盘信息：https://newhouse.fang.com/house/s/b81-b91/

我在网站上进行了一步筛选，即选取北京及北京周边的房源，各位要是想爬取其他城市的房源信息也很简单，改一下url信息即可。

一、数据采集的准备

1.观察url规律

观察到北京及周边地区的房源有很多网页，翻几页就能发现url的规律：

网址就是：https://newhouse.fang.com/house/s/ + b81-b9X + / ；其中X是页码

利用for循环遍历所有网页：

for i in range(33): # 每页20个小区，共648个小区
    url = 'https://newhouse.fang.com/house/s/b81-b9' + str(i+1) + '/'

pip 安装fake_useragent库：

fake-useragent可以伪装生成headers请求头中的User Agent值,将爬虫伪装成浏览器正常操作。

!pip install fake_useragent

导入接下来会用到的包：

## 导包
from lxml import etree
import requests
from fake_useragent import UserAgent
import pandas as pd
import random
import time
import csv

设置请求参数：需要大家替换的有’cookie’和’referer’两项的值：

‘cookie’：每次访问网站服务器的时候，服务器都会在本地设置cookie，表明访问者的身份。记得每次使用时，都要按照固定方法人工填入一个 cookie。

‘referer’：请求参数，标识请求是从哪个页面过来的。

# 设置请求头参数：User-Agent, cookie, referer
headers = {
    'User-Agent' : UserAgent().random,
    'cookie' : "global_cookie=kxyzkfz09n3hnn14le9z39b9g3ol3wgikwn; city=www; city.sig=OGYSb1kOr8YVFH0wBEXukpoi1DeOqwvdseB7aTrJ-zE; __utmz=147393320.1664372701.10.4.utmcsr=mp.csdn.net|utmccn=(re

最低0.47元/天解锁文章