爬取的代码

最新推荐文章于 2024-08-14 11:00:39 发布

qianshanL

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量1.4k

点赞数

分类专栏： Python 文章标签：网页爬虫

本文链接：https://blog.csdn.net/qianshanL/article/details/90443820

版权

本文介绍了如何使用代码框架进行网页爬取，包括京东和亚马逊商品页面的示例。针对网站对爬虫的限制，特别是通过User-Agent字段识别爬虫的策略，提出了解决方案——修改请求头信息，模拟浏览器发送HTTP请求，从而成功获取数据。

摘要由CSDN通过智能技术生成

爬取网页的通用代码框架：

import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200，引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return"产生异常"
if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))

例1、爬取京东某商品页面的信息。

import requests
>>> r=requests.get("https://item.jd.com/21872445778.html")
>>> r.status_code
200
>>> r.encoding
'gbk'
>>> r.text[:1000]

结果：

在这里插入图片描述
很多网站对网络爬虫有限制，无非两种限制方法。一：通过ROBOTS协议告知爬虫者哪些东西可以访问，哪些不行。第二种方法比较隐性，通过查看访问者的ATP的头来判断该访问是否由爬虫引起的，网站一般接受的是由游览器引发的或产生的爬虫，而对于爬虫的请求网站是可

最低0.47元/天解锁文章

qianshanL

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录