python爬虫技巧（仅供参考）

最新推荐文章于 2024-05-16 13:23:09 发布

拉屎忘带纸.

最新推荐文章于 2024-05-16 13:23:09 发布

阅读量691

点赞数

分类专栏：新手文章标签：爬虫 python pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/htss_/article/details/121342049

版权

新手专栏收录该内容

9 篇文章 0 订阅

订阅专栏

爬虫的基础库requests库

requests库

功能强大的爬取网页信息的第三方库，可以进行自动爬取HTML页面及自动网络请求提交的操作。

requests库的主要方法：

requests对象：

爬取实例：

#导入Requests

import requests

#爬取url
url =https://www.douban.com/

#定义获取Text内容
def getHTMLText(url:

try:
#设置请求头(豆瓣设有反爬机制)
headers ={
User-Agent: 'Moilla/5.0 (X11; Linux x86 64) AppleWebKt/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}
response = requests.get(url, headers=headers, timeout=200); #设置超时

response.raise for status0
response.encoding = utf-8'

return response.text
except
return 产生异常”
#name是当前模块名，当模块被直接运行时模块名为_main_
#这句话的意思就是，当模块被直接运行时，以下代码块将被运行,当模块

#是被导入时,代码块不被运行
#相当于入口
ifname == main_:
print(getHTMLText(urll)

拉屎忘带纸.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫技巧（仅供参考）

爬虫的基础库requests库requests库功能强大的爬取网页信息的第三方库，可以进行自动爬取HTML页面及自动网络请求提交的操作。requests库的主要方法：requests对象：爬取实例：#导入Requestsimport requests#爬取urlurl =https://www.douban.com/#定义获取Text内容def getHTMLText(url: try:#设置请求头(豆瓣设有反爬机制)headers ={Use...
复制链接

扫一扫

专栏目录

拉屎忘带纸. CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

120万+: 周排名

219万+: 总排名

4674: 访问

: 等级

93: 积分

2: 粉丝

1: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

分类专栏

新手 9篇

最新评论

python爬虫核心技巧（仅供参考）
边吃饭边敲代码: 学到了，不亏是python大牛！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。