Python 爬取网页数据的两种方法

最新推荐文章于 2024-08-13 02:23:38 发布

bill3282278043

最新推荐文章于 2024-08-13 02:23:38 发布

阅读量790

点赞数

分类专栏：电商数据 api 文章标签： python Powered by 金山文档

原文链接：https://blog.csdn.net/weixin_43960383/article/details/120103913

版权

api 同时被 2 个专栏收录

35 篇文章 0 订阅

订阅专栏

电商数据

34 篇文章 0 订阅

订阅专栏

本文介绍了使用Python进行网络抓取的方法，包括用pandas库读取和解析网页数据，以及利用urllib库抓取数据并写入Excel文件。首先，通过PyCharm下载并安装pandas库，然后使用`pd.read_html()`函数从指定URL获取HTML内容。接着，展示了如何使用urllib请求网页内容并将其写入到Excel表格中。

摘要由CSDN通过智能技术生成

网络抓取是从任何网站或任何其他信息源中提取数据的过程，以你想要查看的格式保存在你的系统中；

包含格式很多，例如CSV、Excel等；文件、XML、JSON等等。Python是最常见的网页抓取语言之一；对于任何网络抓取活动，Python被认为是确保此过程无任何错误进行的最佳方法；

2. 使用pandas 爬取网页数据

2.1 打开网页

打开一个网页，将网址复制下来；

2.2 打开 PyCharm 编译器

先下载pandas库，【文件】=>【设置】=>【项目：xxx】=>【项目解释器】（【File】=>【Settings…】=>【project：xxx】=>【Python Interpreter】），点击＋号，在搜索框中输入“pandas”，在下方列表中选中“pandas”，点击安装，等待提示安装完成即可；

2.回到Pycharm输入以下代码

import pandas as pd     #导入pandas库

html = "https://mobile.anjuke.com/xf/fj-nn/2020/"  #将要爬取数据的网站网址复制到此
date = pd.read_html(html)       #运用pd.read_html读取网站数据
print(date)     #输出爬取到的数据

3.运行结果如下所示：

3.使用urllib爬取网页数据并写入Excel表

3.1 下载 urllib 库

与上述方法一致，这里就不赘述了

3.2 代码如下

import urllib.request       #导入urllib库

url = urllib.request.urlopen("https://fangjia.gotohui.com/show-39181")        #需要抓取数据的网站
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb")       #xls表的位置，会自动生成xls表
dt1.write(data)   #将数据写入D:/Code/data/2.xls表中
dt1.close()
print(data)

3.3 运行结果如下