Python——网络爬虫小实例(Requests库)

requests库基础知识:参考博客

1.京东商品页面的爬取

import requests
url = "https://item.jd.com/7437708.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

结果:

2,爬取亚马逊商品信息

因为亚马逊对网络爬虫有限制,这里我们可以将网络爬虫伪装成浏览器

import requests
url = "https://www.amazon.cn/dp/B011KR25F4/ref=sr_1_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=%E5%A4%A7%E7%A7%A6%E5%B8%9D%E5%9B%BD&qid=1564666810&s=gateway&sr=8-1"
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

 3.百度搜索引擎关键词提交

import requests
keyword = "csdn"
try:
    kv = {'wd':keyword}
    r = requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")

4.网络图片的爬取和存储

import requests
import os
url="http://p1.so.qhmsg.com/bdr/_240_/t01dab8b2e73fe661d6.jpg"
root="C:\Users"   #根目录
path=root+url.split('/')[-1] #根目录加上url中以反斜杠分割的最后一部分,即可以以图片原来的名字存储在本地
try:
    if not os.path.exists(root):#判断当前根目录是否存在
        os.mkdir(root)          #创建根目录
    if not os.path.exists(path):#判断文件是否存在
        r=requests.get(url)
        with open(path,'wb')as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

 5.IP地址归属地的自动查询

判断归属地可以通过ip138来查询

import requests
url = "http://m.ip138.com/ip.asp?ip="
try:
    r = requests.get(url+'218.58.71.157')
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[-500:])
except:
    print("爬取失败")

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值