求助!BeautifulSoup无法解析百度首页

求助!BeautifulSoup无法解析百度首页

在python3编译器里先把相应的第三方库导入好,这里我只用了urllib.request、BeautifulSoup来进行测试。
导入完之后在shell中输入下列代码,显示出相应的结果。

>>>url_1 = r'https://www.baidu.com'
>>>url_2 = r'https://baidu.com'
>>>page_1 = urllib.request.urlopen(url_1)
>>>page_2 = urllib.request.urlopen(url_2)
>>>soup_1 = BeautifulSoup(page_1.read(), 'html.parser')
>>>soup_2 = BeautifulSoup(page_2.read(), 'html.parser')
>>>soup_1('a')
[]
>>>soup_2('a')
[<a href="/" id="result_logo" onmousedown="return c({'fm':'tab','tab':'logo'})"><img alt="到百度首页" class="index-logo-src" src="//www.baidu.com/img/baidu_jgylogo3.gif" title="到百度首页"/><img alt="到百度首页" class="index-logo-srcnew" src="//www.baidu.com/img/baidu_jgylogo3.gif" title="到百度首页"/></a>, <a href="javascript:;" name="ime_hw">手写</a>, <a href="javascript:;" name="ime_py">拼音</a>, <a href="javascript:;" name="ime_cl">关闭</a>, <a class="toindex" href="/">百度首页</a>, <a class="pf" href="javascript:;" name="tj_settingicon">设置<i class="c-icon c-icon-triangle-down"></i></a>, <a class="lb" href="https://passport.baidu.com/v2/?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2F&amp;sms=5" name="tj_login" onclick="return false;">登录</a>, <a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻</a>, <a class="mnav" href="https://www.hao123.com" name="tj_trhao123">hao123</a>, <a class="mnav" href="http://map.baidu.com" name="tj_trmap">地图</a>, <a class="mnav" href="http://v.baidu.com" name="tj_trvideo">视频</a>, <a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">贴吧</a>, <a class="mnav" href="http://xueshu.baidu.com" name="tj_trxueshu">学术</a>, <a class="lb" href="https://passport.baidu.com/v2/?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2F&amp;sms=5" name="tj_login" onclick="return false;">登录</a>, <a class="pf" href="http://www.baidu.com/gaoji/preferences.html" name="tj_settingicon">设置</a>, <a class="bri" href="http://www.baidu.com/more/" name="tj_briicon" style="display: block;">更多产品</a>, <a href="//www.baidu.com/s?rtt=1&amp;bsst=1&amp;cl=2&amp;tn=news&amp;word=" onmousedown="return c({'fm':'tab','tab':'news'})" sync="true" wdfield="word">资讯</a>, <a href="http://tieba.baidu.com/f?kw=&amp;fr=wwwt" onmousedown="return c({'fm':'tab','tab':'tieba'})" wdfield="kw">贴吧</a>, <a href="http://zhidao.baidu.com/q?ct=17&amp;pn=0&amp;tn=ikaslist&amp;rn=10&amp;word=&amp;fr=wwwt" onmousedown="return c({'fm':'tab','tab':'zhidao'})" wdfield="word">知道</a>, <a href="http://music.taihe.com/search?fr=ps&amp;ie=utf-8&amp;key=" onmousedown="return c({'fm':'tab','tab':'music'})" wdfield="key">音乐</a>, <a href="http://image.baidu.com/search/index?tn=baiduimage&amp;ps=1&amp;ct=201326592&amp;lm=-1&amp;cl=2&amp;nc=1&amp;ie=utf-8&amp;word=" onmousedown="return c({'fm':'tab','tab':'pic'})" wdfield="word">图片</a>, <a href="http://v.baidu.com/v?ct=301989888&amp;rn=20&amp;pn=0&amp;db=0&amp;s=25&amp;ie=utf-8&amp;word=" onmousedown="return c({'fm':'tab','tab':'video'})" wdfield="word">视频</a>, <a href="http://map.baidu.com/m?word=&amp;fr=ps01000" onmousedown="return c({'fm':'tab','tab':'map'})" wdfield="word">地图</a>, <a href="http://wenku.baidu.com/search?word=&amp;lm=0&amp;od=0&amp;ie=utf-8" onmousedown="return c({'fm':'tab','tab':'wenku'})" wdfield="word">文库</a>, <a href="//www.baidu.com/more/" onmousedown="return c({'fm':'tab','tab':'more'})">更多»</a>, <a href="//www.baidu.com/cache/sethelp/help.html" id="setf" onmousedown="return ns_c({'fm':'behs','tab':'favorites','pos':0})" target="_blank">把百度设为主页</a>, <a href="http://home.baidu.com" onmousedown="return ns_c({'fm':'behs','tab':'tj_about'})">关于百度</a>, <a href="http://ir.baidu.com" onmousedown="return ns_c({'fm':'behs','tab':'tj_about_en'})">About  Baidu</a>, <a href="http://e.baidu.com/?refer=888" onmousedown="return ns_c({'fm':'behs','tab':'tj_tuiguang'})">百度推广</a>, <a href="http://www.baidu.com/duty/" onmousedown="return ns_c({'fm':'behs','tab':'tj_duty'})">使用百度前必读</a>, <a class="cp-feedback" href="http://jianyi.baidu.com/" onmousedown="return ns_c({'fm':'behs','tab':'tj_homefb'})">意见反馈</a>, <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=11000002000001" id="jgwab" target="_blank">京公网安备11000002000001号</a>]

可以看到,url_1获取页面html之后在BeautifulSoup中无法解析,但是url_2的可以解析,而url_1和url_2的区别就在于前面的www.,对此我深感疑惑,不知道为什么会出现这样的情况,还请各位大佬帮我解一解疑惑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值