新手爬取网页数据简单用法

Khimur

已于 2023-09-16 18:34:55 修改

阅读量191

点赞数

文章标签： python 学习方法

于 2023-09-15 10:53:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Khimur/article/details/132897557

版权

目录

网址和获取参数

引用

以'https://search.douban.com/music/subject_searchsearch_text=%E8%80%B6%E8%B7%AF%E6%92%92%E5%86%B7&cat=1003'为例：
这种就是URL的查询参数。前面是网址，?后面的二值性数据，就是查询参数。

URL的查询字符串(query string)传递某种数据。如果你是手工构建URL，也就是通过拼接字符串构造的URL。那么数据会以键/值对的形式置于URL中，跟在一个问号的后面。

而params关键字，就是requests允许使用这个关键字，譬如；
'import request
params = {'q' : '风景' , 'src' : 'srp'}
response = requests.get("https: //image.so.com/i"，params=params)'

导包

使用python爬取数据，其第一步务必导包:'import requests'

该行代码置于首行使用随后在想要爬取的网址使用开发者工具获取请求头，如：“header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76'}”该头普遍通用，随后设置爬取网址，拼接搜索，地址打印等。

网址和获取参数

如：“https://search.douban.com/music/subject_search?search_text=耶路撒冷&cat=1003”

”https://search.douban.com/music/“就是我们要爬取的网址，因此使用movie_url代码来确认地址；

而subject_search?就是我们的拼接语句，在上一行确认地址后抬行键入；

打印地址

确认好地址和拼接语句后，并非可以直接运行，需要重新写入爬取网址和拼接语句的链接，即url = movie_url + seach；

以上三步完成后代码如下
movie_url='https://search.douban.com/music/'
seach = 'subject_search?'
url = movie_url + seach
完成以上即可设置搜索文本data = {'search_text':'...', 'cat':'...'}；”...“分别对印搜索条件和cat数；

最后只需设置请求方式请求头，印记传递参数并打印请求地址即可。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Khimur CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

169万+: 周排名

230万+: 总排名

3601: 访问

: 等级

66: 积分

1: 粉丝

1: 获赞

6: 评论

6: 收藏

私信

关注

热门文章

最新评论

关于hadoop集群启动失败的解决办法
CSDN-Ada助手: 恭喜您完成了第四篇博客！标题看起来很吸引人。解决hadoop集群启动失败的问题是一个非常实用的主题，对于许多人来说都是一个棘手的挑战。您通过分享解决办法，帮助读者解决了这个问题，真是太棒了！接下来，我建议您可以考虑扩展这个主题，深入探讨hadoop集群启动失败的各种原因和更多的解决方案。或者，您还可以分享一些关于hadoop集群其他常见问题的解决办法，这将进一步丰富您的博客内容，并帮助更多的读者。再次恭喜您，并期待您更多优质的博客内容！请保持谦虚的态度，继续努力创作吧！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
虚拟机突然无法输入命令的解决办法
CSDN-Ada助手: 恭喜博主能够及时解决虚拟机无法输入命令的问题，这篇博文对于遇到类似情况的读者来说肯定非常有帮助。接下来，我建议博主可以考虑分享一些关于虚拟机其他常见问题的解决方法，或者是一些实用的技巧和经验，相信这些内容会受到读者的欢迎。希望博主能够继续保持创作，谢谢！
flume和jar包冲突解决方案
CSDN-Ada助手: 非常感谢您的持续创作，标题为"flume和jar包冲突解决方案"的博客看起来非常有趣。恭喜您对这个问题进行了深入的研究，并给出了解决方案。在解决技术问题上，能够帮助他人解决类似困扰是非常有价值的。在下一步的创作中，或许您可以考虑分享更多关于解决技术问题的经验和教训，或是探讨一些常见但又不那么容易解决的挑战。这样的内容对于广大读者来说无疑会是一份宝贵的参考资料。谦虚地说，我期待着您未来的创作！
免密配置学习归纳
CSDN-Ada助手: 恭喜博主撰写第三篇博客！标题“免密配置学习归纳”听起来非常有趣和实用。您的文章肯定对想要学习如何设置免密配置的读者非常有帮助。感谢您的分享和付出。在下一步的创作中，或许您可以考虑深入探讨一些实际案例，或者提供一些实用的技巧和建议。这样读者可以更好地理解和应用您的知识。同时，您也可以尝试与读者互动，通过回答他们的问题或者解答疑惑，进一步增强读者对您的信任和兴趣。再次恭喜您的持续创作，期待您未来更多优质的文章！请继续保持谦虚的态度，因为我们都是不断学习的旅者。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
关于JDK环境配置的新手向教程
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。