简单爬取网页实战1

#正常的爬取一个商品的网页
import requests
url="https://item.jd.com/100005929301.html"
try:
    r=requests.get(url) #获取url链接
    r.raise_for_status() #requests里的一个函数,可以捕捉错误
    r.encoding=r.apparent_encoding #赋值状态码
    print(r.text[:10000])
except:
    print("爬取失败")




#爬取亚马逊页面,访问错误时,添加的头部信息,模仿正常用户
import requests
url="https://www.amazon.cn/dp/B07KSBVKJ7?ref_=Oct_DLandingS_D_6f6a99b6_61&smid=A26HDXW89ZT98L"
hd={'user-agent':'Chrom/10'}
try:
    r=requests.get(url,headers=hd)#添加头部信息
    r.encoding=r.apparent_encoding
    r.raise_for_status()
    print(r.text)
except:
    print("爬取失败")
    print(r.status_code)
    print(r.encoding)
    print(r.headers)
    





#用程序向百度搜索引擎提交关键词,并返回结果(返回结果的长度)
import requests
keyword="python"
try:
    kv={'wd':keyword} #wd是搜索百度引擎接口前的标识,360的为q
    r=requests.get("http://www.baidu.com/s",params=kv)
    r.encoding=r.apparent_encoding
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")
 



#爬取图片并保存的全代码
import requests
import os #Python的系统编程的操作模块,可以处理文件和目录这些我们日常手动需要做的操作
#图片的地址
url="https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1605201042825&di=4bacee1ecec6988fcbfad57debbfd488&imgtype=0&src=http%3A%2F%2Funion.china.com.cn%2Fcsmp%2Fimages%2Fattachement%2Fjpg%2Fsite355%2F20151030%2Fd02788e9b72b179d0eb73a.jpg"
#创建一个文件夹
root="D://pics//"
#图片的保存路径以及名字,且照片是以链接最后一个/后的内容命名的
path=root+url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if  not os.path.exists(root):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值