简单爬取网页实战1

最新推荐文章于 2024-04-15 18:24:54 发布

隔壁病人

最新推荐文章于 2024-04-15 18:24:54 发布

阅读量257

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/genbibingren/article/details/109661329

版权

#正常的爬取一个商品的网页
import requests
url="https://item.jd.com/100005929301.html"
try:
    r=requests.get(url) #获取url链接
    r.raise_for_status() #requests里的一个函数，可以捕捉错误
    r.encoding=r.apparent_encoding #赋值状态码
    print(r.text[:10000])
except:
    print("爬取失败")




#爬取亚马逊页面，访问错误时，添加的头部信息，模仿正常用户
import requests
url="https://www.amazon.cn/dp/B07KSBVKJ7?ref_=Oct_DLandingS_D_6f6a99b6_61&smid=A26HDXW89ZT98L"
hd={'user-agent':'Chrom/10'}
try:
    r=requests.get(url,headers=hd)#添加头部信息
    r.encoding=r.apparent_encoding
    r.raise_for_status()
    print(r.text)
except:
    print("爬取失败")
    print(r.status_code)
    print(r.encoding)
    print(r.headers)
    





#用程序向百度搜索引擎提交关键词，并返回结果(返回结果的长度)
import requests
keyword="python"
try:
    kv={'wd':keyword} #wd是搜索百度引擎接口前的标识，360的为q
    r=requests.get("http://www.baidu.com/s",params=kv)
    r.encoding=r.apparent_encoding
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")
 



#爬取图片并保存的全代码
import requests
import os #Python的系统编程的操作模块，可以处理文件和目录这些我们日常手动需要做的操作
#图片的地址
url="https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1605201042825&di=4bacee1ecec6988fcbfad57debbfd488&imgtype=0&src=http%3A%2F%2Funion.china.com.cn%2Fcsmp%2Fimages%2Fattachement%2Fjpg%2Fsite355%2F20151030%2Fd02788e9b72b179d0eb73a.jpg"
#创建一个文件夹
root="D://pics//"
#图片的保存路径以及名字，且照片是以链接最后一个/后的内容命名的
path=root+url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if  not os.path.exists(root):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

隔壁病人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单爬取网页实战1

#正常的爬取一个商品的网页import requestsurl="https://item.jd.com/100005929301.html"try: r=requests.get(url) #获取url链接 r.raise_for_status() #requests里的一个函数，可以捕捉错误 r.encoding=r.apparent_encoding #赋值状态码 print(r.text[:10000])except: print("爬取失败")
复制链接

扫一扫