python爬取百度搜索_使用Python + requests爬取百度搜索页面

最新推荐文章于 2024-05-27 14:19:25 发布

overlogged

最新推荐文章于 2024-05-27 14:19:25 发布

阅读量1w

点赞数 6

文章标签： python爬取百度搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31970409/article/details/113672473

版权

想学一下怎样用python爬取百度搜索页面，因为是第一次接触爬虫，遇到一些问题，把解决过程与大家分享一下1.使用requests爬取网页首先爬取百度主页www.baidu.comimport requestsurl = "http://www.baidu.com"html = requests.get(url)print(html.text)很简单，调用get函数，传入url，就能提取出页面元素但...

摘要由CSDN通过智能技术生成

想学一下怎样用python爬取百度搜索页面，因为是第一次接触爬虫，遇到一些问题，把解决过程与大家分享一下

1.使用requests爬取网页

首先爬取百度主页www.baidu.com

import requests

url = "http://www.baidu.com"

html = requests.get(url)

print(html.text)

很简单，调用get函数，传入url，就能提取出页面元素

但打印出来发现百度主页上的中文全部成了乱码，这是因为爬来的数据中没有指定编码格式，编码默认设置为ISO-8891-1，加入一行代码指定编码格式可以解决：

import requests

url = "http://www.baidu.com"

html = requests.get(url)

html.encoding = html.apparent_encoding

print(html.text)

人为指定html.encoding = "utf-8"也能解决中文乱码问题

2.

百度搜索页面的url格式为"http://www.baidu.com/s?"与"wd=搜索关键词"、"pn=从第几个搜索项开始"等片段拼接起来的，不同片段间用&隔开，其中pn从0开始计数，一页有10个搜索项，所以从第n页开始搜索，pn应填为页数*10

如搜索CSDN，从第5个搜索项开始，url为"http:

最低0.47元/天解锁文章

关注

6
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
python爬取百度搜索_使用Python + requests爬取百度搜索页面

想学一下怎样用python爬取百度搜索页面，因为是第一次接触爬虫，遇到一些问题，把解决过程与大家分享一下1.使用requests爬取网页首先爬取百度主页www.baidu.comimport requestsurl = "http://www.baidu.com"html = requests.get(url)print(html.text)很简单，调用get函数，传入url，就能提取出页面元素但...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。