Python爬虫学习（二）盗亦有道（三）Requests库网络爬取实战

最新推荐文章于 2024-08-10 23:14:03 发布

浩然丶

最新推荐文章于 2024-08-10 23:14:03 发布

阅读量233

点赞数

分类专栏： Python-爬虫文章标签： python 网络

本文链接：https://blog.csdn.net/qq_39419113/article/details/105489669

版权

本文介绍了网络爬虫的限制，如User-Agent检查和Robots协议，然后详细阐述了使用Requests库进行京东、亚马逊商品页面爬取，百度和360搜索关键词提交，以及网络图片的爬取和IP地址归属地查询的实战技巧。

摘要由CSDN通过智能技术生成

（二）网络爬虫的盗亦有道

(1)网络爬虫的限制

来源审查：检查来访HTTP协议头的User-Agent域
发布公告：Robots协议 —— 网站根目录下的robots.txt文件

（三）Requests库网络爬取实战

(1)京东商品页面的爬取

import requests

def getHTMLText(url):
    try:
        Headers = {
   
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
        }
        r = requests.get(url,headers=Headers,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text[:1000]
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "https://item.jd.com/100004323294.html"
    print(getHTMLText(url))

(2)亚马逊商品页面的爬取

import requests

def getHTMLText(url):
    try:
        Headers ={
   
            'User-Agent': 'Mozilla/5.0 (Windo

最低0.47元/天解锁文章

浩然丶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习（二）盗亦有道（三）Requests库网络爬取实战

（二）网络爬虫的盗亦有道(1)网络爬虫的限制来源审查：检查来访HTTP协议头的User-Agent域发布公告：Robots协议 —— 网站根目录下的robots.txt文件（三）Requests库网络爬取实战(1)京东商品页面的爬取import requestsdef getHTMLText(url): try: Headers = { ...
复制链接

扫一扫