网络爬虫学习1 - 使用 requests.get(url) 抓取网页

网络爬虫MOOC学习打卡 - 第一天



一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

在这里插入图片描述

2.调用requests类 —— import requests

requests.get(url) 是用来抓取网页信息的

知识点一:
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息

代码如下:

# 调用requests
import requests

# 使用 get()方法抓取百度的主页信息
r = requests.get(https://www.baidu.com) 

# 使用 r.text用来输出抓取的信息
r.text

这里有需要注意的地方:在输入url的时候,如果不输入http://则会报错。
在这里插入图片描述
知识点二:
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding

可以发现网页的内容有没有编写成中文的地方,所以我们可以自己分析一下真正的编码是什么
1.估计查询:r.encoding
2.更精准查询(但是也不是完全正确的):r.apparent_encoding

代码如下:

# 默认编码(是从头文件中分析得来的):
r.encoding

# 更精准查询(但是也不是完全正确的,是从内容分析中得来的):
r.apparent_encoding

所以我们可以更改编码方式:
我们用分析更准确的编码方式赋予r.encoding,这样得到的信息就是我们想要的了 —— 从乱码到中文

代码如下:

# 把r.apparent_encoding的编码格式赋予r.encoding
r.encoding = r.apparent_encoding

# 这次再输出抓取的内容吧
r.text

结果如下:
在这里插入图片描述
不难看到,中文出现了!因为我们把编码格式从 ISO-8859-1 改成了 utf-8

知识点三:
1.状态码

“今天你连接成功了么?”

# 返回结果是 200 ,success
# 返回结果为 404 或其他 ,fault
r.status_code

总结

没什么总结的。。放松一下读读诗吧
在这里插入图片描述

赠卫八处士 杜甫
人生不相见,动如参与商。今夕复何夕,共此灯烛光。
少壮能几时,鬓发各已苍。访旧半为鬼,惊呼热中肠。
焉知二十载,重上君子堂。昔别君未婚,儿女忽成行。
怡然敬父执,问我来何方。问答乃未已,驱儿罗酒浆。
夜雨剪春韭,新炊间黄粱。主称会面难,一举累十觞。
十觞亦不醉,感子故意长。明日隔山岳,世事两茫茫。

  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
使用Jupyter Notebook抓取网页静态数据的过程中,你可以使用一些常见的Python库来帮助你完成任务,比如BeautifulSoup、Pandas和Requests。以下是一个基本的流程: 1. 首先,你需要安装所需的库,可以使用pip命令来安装,比如: ``` pip install beautifulsoup4 pandas requests ``` 2. 导入所需的库: ``` import requests from bs4 import BeautifulSoup import pandas as pd ``` 3. 使用requests库发送HTTP请求并获取网页的源代码: ``` url = "http://example.com" # 替换成你要抓取网页URL response = requests.get(url) html = response.text ``` 这样,你就可以获取到网页的源代码。 4. 使用BeautifulSoup库解析网页源代码并提取需要的数据: ``` soup = BeautifulSoup(html, 'html.parser') # 根据网页的HTML结构,使用相应的方法来提取数据 data = soup.find('div', class_='example-class').text # 替换成你要提取的具体数据的代码 ``` 这里的`find()`方法可以根据HTML标签和属性来定位需要的数据,你可以根据网页的具体结构进行调整。 5. 如果你需要将提取的数据保存为文件或进行进一步的处理,你可以使用Pandas库: ``` df = pd.DataFrame(data, columns=['column1', 'column2']) # 替换成你要保存的数据和列名 df.to_csv('data.csv', index=False) # 保存为CSV文件 ``` 这样,你就可以将数据保存为CSV文件,方便后续的分析和处理。 请注意,在实际的抓取过程中,可能会遇到一些网站的反爬机制,例如验证码、登录等。针对这些情况,你可能需要进一步的学习和探索,以应对不同的挑战。 引用: 爬虫Python 的一个重要的应用,使用 Python 爬虫我们可以轻松的从互联网中抓取我们想要的数据。本文将基于爬取 B 站视频热搜榜单数据并存储为例,详细介绍 Python 爬虫的基本流程。 网络抓取挑战 构建一个Flask Web应用程序,该应用程序会抓取各种网站以获取与“火星任务”... 开发网络抓取代码-使用Jupyter Notebook,BeautifulSoup,Pandas和Requests / Splinter scrape_mars.py文件中使用的代码。 不过虽然看上去简单,但是在真实场景中每一步都没有那么轻松,从请求数据开始目标网站就有多种形式的反爬、加密,到后面解析、提取甚至存储数据都有很多需要进一步探索、学习

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MicroLindb

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值