python——爬取网页和实例练习(3)

查看网页robots协议

在网页后加上/robots.txt
例:https://www.baidu.com/robots.txt
在这里插入图片描述
User-agent:表明是哪些爬虫
Disallow:表示哪些区域不能被该爬虫进入
其中,“*”代表全部
并非所有网站都有robost协议

【实例练习】

【实例1】京东商品页面的爬取

>>> import requests
>>> r=requests.get('https://item.jd.com/2967929.html')
>>> r.encoding=r.apparent_encoding
>>> r.status_code
200
>>> r.text
'<!DOCTYPE HTML>\n<html lang="zh-CN">\n<head>\n    <!-- shouji -->\n    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />\n    <title>【华为荣耀8】荣耀8 4GB+64GB 全网通4G手机 魅海蓝【行情 报价 价格 评测】-京东</title>\n    <meta name="keywords" content="HUAWEI荣耀8,华为荣耀8,华为荣耀8报价,HUAWEI荣耀8报价"/>\n    <meta name="description" content="【华为荣耀8】京东JD.COM提供华为荣耀8正品行货,并包括HUAWEI荣耀8网购指南,以及华为荣耀8图片、荣耀8参数、荣耀8评论、荣耀8心得、荣耀8技巧等信息,网购华为荣耀8上京东,放心又轻松"     window.showtouchurl = true;\n                return;\n              }\n\n                            if (/MOBILE/.test(userAgent) && /(MICROMESSENGER|QQ\\/)/.test(userAgent)) {
   \n                  var paramIndex = location.href.indexOf("?");\n                  href="//item.jd.com/100004885513.html" target="_blank" clstag="pageclick|keycount|shop_link_124259979_51|1000000904"> \n\t\t\t\t\t\t\t\t\t\t\t\t<div class="user-chi-img">\n\t\t\t\t\t\t\t\t\t\t\t\t\t<img class="" src="//img10.360buyimg.com/cms/jfs/t1/71825/14/11654/10052/5d902323Ed//honor.jd.com" target="_blank" class="btn-def enter-shop J-enter-shop" clstag="shangpin|keycount|product|jindian2">\n                    <i class="sprite-enter"></i>\n                    <span>进店逛逛</span>\n                </a>\n                <a href="#none" class="btn-def follow-shop J-follow-shop" data-vid="1000000904" clstag="shangpin|keycount|product|guanzhu2">\n                    <i class="sprite-follow"> </i>\n                    <span>关注店铺</span>\n                </a>\n            </div>\n        </div>\n    </div>\n    </div>\n        </div>\n                                                        <div class="m m-aside hide" id="view-buy" clstag="shangpin|keycount|product|darenxuangou_1"></div>\n\n                        <div class="m m-aside" id="view-view" clstag="shangpin|keycount|product|seemore_1"></div>\n                                        <div class="m m-aside" id="rank">\n            <div class="mt">\n                <h3>手机热销榜</h3>\n            &l
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值