requests简单抓取百度词典内容

>>> import requests,re
>>> url='http://dict.baidu.com/s'
>>> params={'wd':'android','home':'pc'}
>>> r=requests.get(url,params)
>>> text=r.text
>>> text
'\n\r\n<!Doctype html>\n<html>\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n    <meta http-equiv=X-UA-Compatible content="IE=edge,chrom
e=1">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n    <link rel="shortcut icon" href="https://m.baidu.com/static/index/icon/w_icon2.png" type
="image/x-icon" />\n    <meta name="keywords" content="android,android读音,android翻译,android的意思,android的造句,android故事"/>\n    <meta name="description" content="百
度词典android的解释: 百度词典_android,英文翻译,五笔,拼音,组词,例句,用法"/>\n    <title>百度词典_android</title>\n    <script>\nvar _hmt = _hmt || [];\nvar _ziciURL =
"//hm.baidu.com/hm.js?aa7a77b165b2c996a2c4b0493fbdbc2b";\nvar _dictURL = "//hm.baidu.com/hm.js?304463b8a93092da95f0ed0515fb47be";\n\n(function() {\n  var hm = document.crea
teElement("script");\n  hm.src = _dictURL;\n  var s = document.getElementsByTagName("script")[0]; \n  s.parentNode.insertBefore(hm, s);\n})();\n</script>        <link rel="
stylesheet" href="/asset/css/main.css" />\n    <link rel="stylesheet" type="text/css" href="/asset/css/style.css?v=0.2.1" />\n    </head><body class="pc module" id="pc-empt
y-body" data-prop="" data-name="android">\n\n<div style="display:none">\n<script type="text/javascript">\nvar _bdhmProtocol = (("https:" == document.location.protocol) ? "
https://" : " http://");\ndocument.write(unescape("%3Cscript src=\'" + _bdhmProtocol + "hm.baidu.com/h.js%3F304463b8a93092da95f0ed0515fb47be\' type=\'text/javascript\'%3E%3
C/script%3E"));\n\nwindow.__start_time = +(new Date());\n</script>\n</div>\n    <div id="search-bar">\n        <div class="wrapper">\n        <div style="margin-right:300px
;position: relative">\n    <div class="dict-logo"><a href="/" title="百度词典"></a></div>\n    <div class="search-box module" id="search-box">\n        <form name="f" id="f
orm" action="" class="fm">\n            <span class="bg s_ipt_wr quickdelete-wrap">\n                <input id="kw" name="wd" class="s_ipt" value="android" maxlength="40" a
utocomplete="off">\n                <input id="ptype" name="ptype" class="s_ipt" value="empty" type="hidden">\n            </span>\n            <span class="bg s_btn_wr foc
us">\n                <input type="submit" id="su" value="百度一下" class="bg s_btn">\n            </span>\n        </form>\n    </div>\n</div>        <div class="wrap-user
bar module" id="wrap-userbar">\n    \n    <ul class="userbar logout">\n    <li class="userbar-item">\n        <a href="https://passport.baidu.com/v2/?login&tpl=mn&u=http://
dict.baidu.com/s?wd=android" id="login_link">登录</a>\n    </li>\n    <li class="pipe userbar-item">|</li>\n    <li><a href="/download" name="tj_cidian" class="userbar-item
 download-link">手机版</a></li>\n    <li class="pipe userbar-item">|</li>\n    <li class="userbar-item">\n        <a href="http://www.baidu.com" target="_blank">百度首页</a
>\n    </li>\n    </ul>\n</div>        </div>\n    </div>\n    <!-- 外层包裹 -->\n    <div id="body-wrapper">\n    <div id="main" class="module">\n        <div id="update_t
ips_div" style="display: none;">\n            <div>用 <a class="tips-export-a" href="http://hanyu.baidu.com" οnclick="_hmt.push([\'_trackEvent\',\'汉语导流\', \'中间页
导流\', \'PC首页banner跳首页点击\']);">百度汉语</a> 查看更全面更权威的汉语知识,在百度汉语中查看 “<a href="http://hanyu.baidu.com/s?wd=android"  οnclick="_hmt.pu
sh([\'_trackEvent\',\'汉语导流\', \'中间页导流\', \'PC首页banner跳实体页点击\']);\n            ">android</a>”<img src="/asset/img/icon_hand_click.png"></div>\n
<a class="tips-div-close" οnclick="_hmt.push([\'_trackEvent\',\'汉语导流\', \'中间页导流\', \'PC首页banner关闭点击\']);"><img src="/asset/img/icon_close.png"/></a>\n
 </div>\n        <div class="left nav-list module" id="nav-list"></div>\n        <div class="content-panel module" id="content-panel">\n            <div id="qa-tip" style="
display:none"></div>\n    \n\n<div class="tab-list module" id="empty-body">\n\n\n<div class="content" id="fanyi-wrapper">\n    <h1><b class="title" id="fanyi">翻译</b></h1>
\n    <div class="tab-content">\n                <p>\n            <div style="display:inline-block">android</div>\n            <a href="?wd=安卓">安卓</a>\n        </p>\n
          </div>\n</div>\n\n\n    <div class="content" id="baike-wrapper">\n    <h1><b class="title" id="baike">百科解释</b></h1>\n    <div class="tab-content">\n        <p
>\n            Android是一种基于Linux的自由及开放源代码的操作系统,主要使用于移动设备,如智能手机和平板电脑,由Google公司和开放手机联盟领导及开发。尚未有统一中文名称,中国
大陆地区较多人使用“安卓”或“安致”。Android操作系统最初由Andy Rubin开发,主要支持手机。2005年8月由Google收购注资。2007年11月,Google与84家硬件制造商、软件开发商及电信营运
商组建开放手机联盟共同研发改良Android系统。随后Google以Apache开源许可证的授权方式,发布了Android的源代码。第一部Android智能手机发布于2008年10月…\n            <a href="http
://baike.baidu.com/subview/1241829/9322617.htm" target="baike">查看百科</a>\n        </p>\n    </div>\n</div>\n\n</div>        <div id="right-panel" class="right module">\n
            <div class="recmd-panel module" id="recmd-panel">\n                                <div class="list">\n                                </div>\n            </div
>\n        </div>\n    </div>\n    <!--content-panel-->\n    </div>\n    </div>\n    <!--body-wapper-->\n</div>\n\n<div id="scroll-top"></div>\n\n<p id="copyright">©2018 Ba
idu\n        <a href="http://www.baidu.com/duty/">使用百度前必读</a> \n        <a href="http://www.baidu.com">百度首页</a>\n        <a href="/search" style="display:none">
站内搜索</a>\n        <a href="http://help.baidu.com/add?prod_id=8#1">问题反馈</a>\n        <a href="http://weibo.com/5789783834/manage">关注微博</a>\n        <span href="#
">用户QQ群:484758177</span>\n</p>\n\n<div id="fmp_flash_div" style="display:none"><audio id="audio"></audio></div>\n\n<script src="/asset/asset/dep/zepto/zepto.min.js"></s
cript>\n<script src="/asset/asset/dep/esl/esl.min.js"></script>\n\n<script>\n\nrequire.config(\n    {\n        baseUrl: \'/asset/asset\',\n        urlArgs: \'v=0.2.1\'\n
 }\n);\nrequire([\'main\']);\n\n$("#kw")[0].focus();\nwindow.__finish_time = + (new Date());\nwindow.__used_time = __finish_time - window.__start_time;\n</script>\n\n</div>
\n</body>\n</html>'
>>> p=r'<div class="tab-content">([^"\\s\\S]+?)<a'
>>> ret=re.findall(p,text)
>>> ret
['\n        <p>\n            Android是一种基于Linux的自由及开放源代码的操作系统,主要使用于移动设备,如智能手机和平板电脑,由Google公司和开放手机联盟领导及开发。尚未有统一
中文名称,中国大陆地区较多人使用“安卓”或“安致”。Android操作系统最初由Andy Rubin开发,主要支持手机。2005年8月由Google收购注资。2007年11月,Google与84家硬件制造商、软件开
发商及电信营运商组建开放手机联盟共同研发改良Android系统。随后Google以Apache开源许可证的授权方式,发布了Android的源代码。第一部Android智能手机发布于2008年10月…\n
 ']

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值