爬取的代码

本文介绍了如何使用代码框架进行网页爬取,包括京东和亚马逊商品页面的示例。针对网站对爬虫的限制,特别是通过User-Agent字段识别爬虫的策略,提出了解决方案——修改请求头信息,模拟浏览器发送HTTP请求,从而成功获取数据。
摘要由CSDN通过智能技术生成

爬取网页的通用代码框架:

import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200,引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return"产生异常"
if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))
            

例1、爬取京东某商品页面的信息。

import requests
>>> r=requests.get("https://item.jd.com/21872445778.html")
>>> r.status_code
200
>>> r.encoding
'gbk'
>>> r.text[:1000]

结果:

在这里插入图片描述
很多网站对网络爬虫有限制,无非两种限制方法。一:通过ROBOTS协议告知爬虫者哪些东西可以访问,哪些不行。第二种方法比较隐性,通过查看访问者的ATP的头来判断该访问是否由爬虫引起的,网站一般接受的是由游览器引发的或产生的爬虫,而对于爬虫的请求网站是可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值