Python网络爬取的代码以及信息

这篇博客详细介绍了Python网络爬虫的学习过程,并提供了配套的实战代码,旨在帮助读者掌握网络数据抓取技巧。
摘要由CSDN通过智能技术生成

该博客系Python网络爬虫学习的配套代码

import requests 
artibody_url = 'http://news.sina.com.cn/o/2017-04-18/doc-ifyeimzx6745829.shtml'
artibody_res = requests.get(artibody_url)
artibody_res.encoding = 'utf-8'
print(artibody_res.text)
<!DOCTYPE html>
<!-- [ published at 2017-04-18 04:22:23 ] -->
<!-- LLTJ_MT:name ="环球网" -->

<html>
<head>
  <meta charset="utf-8"/>
<meta name="sudameta" content="urlpath:c/; allCIDs:56044,257,51895,200856,51922,56261,258,38790">
<title>美媒:中国奇迹没有结束 而是进入了第二阶段|中国经济_新浪新闻</title>
<meta name="keywords" content="中国经济" />
<meta name="tags" content="中国经济" />
<meta name="description" content="原标题:美媒:中国奇迹没有结束,而是进入了第二阶段[环球时报综合报道]“增长表现超出预期”,对于中国国家统计局公布的今年一季度6.9%的国内生产总值(GDP)增长率,外媒昨天纷纷这样强调。不同的人看到不一样的风景,但一个显而易见的事实是,只" />
<link rel="mask-icon" sizes="any" href="//www.sina.com.cn/favicon.svg" color="red">
<meta property="og:type" content="news" />
<meta property="og:title" content="美媒:中国奇迹没有结束 而是进入了第二阶段" />
<meta property="og:description" content="美媒:中国奇迹没有结束 而是进入了第二阶段" />
<meta property="og:url" content="http://news.sina.com.cn/o/2017-04-18/doc-ifyeimzx6745829.shtml" />
<meta property="og:image" content="http://n.sinaimg.cn/news/transform/20170418/UrtA-fyeimrn2749398.jpg" />
<meta name="weibo: article:create_at" content="2017-04-18 02:25:00" />
<meta name="weibo: article:update_at" content="2017-04-18 04:22:15" />

<meta property="article:published_time" content="2017-04-18T02:31:33+08:00" />
<meta property="article:author" content="环球网" />

<meta name="stencil" content="PGLS000115" />
<meta name="publishid" content="fyeimzx6745829" />
<meta name="comment" content="gn:comos-fyeimzx6745829" />
<meta name="sudameta" content="comment_channel:gn;comment_id:comos-fyeimzx6745829" />



<meta name="mediaid" content="环球网">
<meta name="sudameta" content="sinaog:0" />
<meta name="mobile-agent" content="format=html5; url=http://news.sina.cn/2017-04-18/detail-ifyeimzx6745829.d.html">
<meta name="mobile-agent" content="format=xhtml; url=http://news.sina.cn/2017-04-18/detail-ifyeimzx6745829.d.html">
<meta name="mobile-agent" content="format=wml; url=http://news.sina.cn/2017-04-18/detail-ifyeimzx6745829.d.html">

<link rel="alternate" type="application/rss+xml" title="新浪新闻中心_国内新闻"  href="http://rss.sina.com.cn/news/china/focus15.xml" />

<!-- 栏目名: 56044 国内新闻 --><!-- id: fyeimzx6745829 URL: http://news.sina.com.cn/o/2017-04-18/doc-ifyeimzx6745829.shtml -->


<meta name=jspreload content="jspreload">
<script type="text/javascript">
      (function(){
      if(navigator.userAgent.indexOf('MSIE') === -1){return};
      var list = ["http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=js","http://news.sina.com.cn/js/87/content2014/common.js","http://d1.sina.com.cn/litong/zhitou/sspnew.js","http://d2.sina.com.cn/d1images/button/rotator.js","http://i.sso.sina.com.cn/js/ssologin.js","http://i.sso.sina.com.cn/js/outlogin_layer.js","http://i.sso.sina.com.cn/js/user_panel_new_version_v2.js","http://n.sinaimg.cn/ent/wsy/topnav20150402.js","http://static.bshare.cn/b/buttonLite.js#style=-1&amp;uuid=cc6dc2b3-f467-40cb-afae-c7c6154a5f54&amp;pophcol=2&amp;lang=zh","http://static.bshare.cn/b/bshareC0.js","http://news.sina.com.cn/268/2014/0919/bshare_update.js","http://news.sina.com.cn/js/87/content2014/d_location.js","http://news.sina.com.cn/js/87/20130522/content/piclead.js","http://pfp.sina.com.cn/js/17/2013/0621/tb/59.js","http://d2.sina.com.cn/d1images/button/rotator.js","http://d5.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js","http://pfp.sina.com.cn/iframe/14/2011/0517/47zhongshiwangmeng.js","http://pfp.sina.com.cn/js/17/2012/0928/china00_300x500.js","http://d5.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js","http://pfp.sina.com.cn/js/17/2013/0621/tb/58.js","http://d5.sina.com.cn/litong/xianwei/taobao0827.js","http://d3.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js","http://d0.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js","http://d5.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js","http://tech.sina.com.cn/js/717/20140827/index2014/top.js","http://news.sina.com.cn/js/87/20140926/comment.3.min.js","http://news.sina.com.cn/js/87/content2014/feed.relatedNews.js","http://i1.sinaimg.cn/unipro/pub/suda_m_v629.js","http://d3.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js"];
      for(var i=0;i<list.length;i++){(new Image()).src = list[i]}
      })();
</script>


<script type="text/javascript" src="http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=js"></script>
  <link rel="stylesheet" href="http://tech.sina.com.cn/css/717/20140911/index2014/feed.1.1.7.css" type="text/css" />
  <link rel="stylesheet" href="http://news.sina.com.cn/268/2014/0919/bshare_update.css" type="text/css">
  <link rel="stylesheet" type="text/css" href="http://news.sina.com.cn/css/87/20140926/comment.3.css">
  <link rel="stylesheet" type="text/css" href="http://news.sina.com.cn/css/87/content2014/common.min.css" />
  <link rel="stylesheet" type="text/css" href="http://news.sina.com.cn/css/87/content2014/style_news.css" />



<script type="text/javascript" src="http://news.sina.com.cn/js/87/content2014/common.js" charset="gbk"></script>
  <script type="text/javascript">
  (function(){
    //var isTouchDevice = 'ontouchstart' in window;
    var _doc = document;
    var head, meta;
    if(SINA_ARTICLE_PAGE_SETTINGS.isPad){
      head = _doc.querySelector('head');
      meta = document.createElement('meta');
      meta.setAttribute('name', 'viewport');
      meta.setAttribute('content', 'initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=no');
      head.appendChild(meta);

      _doc.write('<link rel="stylesheet" href="http://n0.sinaimg.cn/news/4803d74b/20170109/ipad.min.css">');
      _doc.write('<' + 'script type="text/javascript" src="http://n.sinaimg.cn/news/content2014/zepto.min.js"></' + 'script>');

    } else {
      _doc.write('<link rel="stylesheet" href="http://news.sina.com.cn/css/87/content2014/desktop.min.css">');
      _doc.write('<' + 'script type="text/javascript" src="http://n.sinaimg.cn/news/content2014/jquery-1.11.1.min.js"></' + 'script>');
    }
  })();
  </script>
  <script>try{document.domain='sina.com.cn'}catch(e){}</script>


<script type="text/javascript" src="http://d1.sina.com.cn/litong/zhitou/sspnew.js"></script> 
<script language="javascript" type="text/javascript" src="http://d2.sina.com.cn/d1images/button/rotator.js" charset="gbk"></script>

<script>
    //设置本页面的富媒体类型的顺序
    var _SINAADS_CONF_PAGE_MEDIA_ORDER = ["PDPS000000056619", "PDPS000000042133", "PDPS000000057131"];
    //var sinaadsPageMediaOrder = ['bottomstream', 'kzhzh', 'fc'];
</script>


<script>
    (function (d, s, id) {
        var s, n = d.getElementsByTagName(s)[0];
        if (d.getElementById(id)) return;
        s = d.createElement(s);
        s.id = id;
        s.setAttribute('charset', 'utf-8');
        s.src = '//d' + Math.floor(0 + Math.random() * (9 - 0 + 1)) + '.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js';
        n.parentNode.insertBefore(s, n);
    })(document, 'script', 'sinaads-script');
</script>

<script language='javascript' charset='utf-8' src='http://i.sso.sina.com.cn/js/ssologin.js'></script>
<script type="text/javascript" src="http://i.sso.sina.com.cn/js/outlogin_layer.js"  charset="utf-8"></script>
<script type="text/javascript" src="http://i.sso.sina.com.cn/js/user_panel_new_version_v2.js" charset="utf-8"></script>


</head>

<body><!-- body code begin -->
</body>
</html>
from bs4 import BeautifulSoup
artibody_soup = BeautifulSoup(artibody_res.text, 'html.parser')
artibody_div = artibody_soup.select('#artibody p')[1:-2]
print(artibody_div)
[<p>  [环球时报综合报道] “增长表现超出预期”,对于中国国家统计局公布的今年一季度6.9%的国内生产总值(GDP)增长率,外媒昨天纷纷这样强调。不同的人看到不一样的风景,但一个显而易见的事实是,只要中国大体维持目前的相对增长优势,上升的步伐便不可阻挡。正如美国《福布斯》日前所说:中国的经济奇迹没有结束,而是进入了第二阶段。</p>, <p>  虽然增长放缓,挑战越来越多,但中国的进步有目共睹。《纽约时报》17日称,过去11个季度的官方数据显示,中国经济增长在6.7%到7.2%之间。从国际标准看,这是令人吃惊的长期稳定增长。与此形成鲜明对比的是,美国的季度增长经常仅为一两个百分点。过去12年,中国蓝领工人薪酬激增8倍,这大幅削弱了中国的劳工成本优势,不过同时也促进了经济繁荣,推动消费增长。</p>, <p>  日本《外交学者》称,过去几十年中国GDP保持两位数增长,但现在增幅仅为6%到7%之间。尽管中国经济增长确实放缓了,但中国消费者强势登上世界舞台的购买力并没有减弱的趋势。事实上,中国消费者的购买力今后还将变得更加显著。麦肯锡分析师预计,到2020年中国将有近4亿家庭收入在1.6万到3.4万美元之间的“主流消费者”,或者说中产阶层消费者。这些消费者的强大实力将震撼世界。</p>, <p>  19日,第17届上海国际车展将拉开帷幕。法新社称,全球汽车厂商本周汇聚中国,面对世界最大汽车市场上的激烈竞争,业界正在为销售放缓和潜在的价格战做好准备。不过,应该客观认识中国汽车产业遇到的这些麻烦,中国对汽车厂商来说仍是一座金矿。去年美国汽车销量创下历史新高,达到1755万辆,但中国早在8年前就超越这个数字并成为世界第一大汽车市场。</p>, <p>  “中国奇迹没有结束,而是进入了第二阶段”,美国《福布斯》日前刊文称,1980年,世界人口最多的国家也是最贫困的国家之一。30多年后,中国已成为仅次于美国的世界第二大经济体。去年中国GDP达到10.8万亿美元。此前,从没有一个像中国这样规模如此之大、情况如此之复杂、历史如此之悠久的国家能在如此短的时间内迅速崛起。过去6年来,中国平均增速“仅为”6%到9%之间,这使得有些人宣称中国奇迹结束了。这些人错了,中国只是进入了第二阶段。中国政府在保持稳定的同时寻求发展。我们可将此解释为努力将中国经济从侧重制造和出口转向更成熟的经济发展推动力量。通过致力于现代化增长的四大支柱消费、科技、高端制造和服务业,中国将推动其经济增长奇迹转型和继续发展。</p>]
article = []
for p in artibody_div:
    article.append(p.text.strip())
print(article)
['[环球时报综合报道] “增长表现超出预期”,对于中国国家统计局公布的今年一季度6.9%的国内生产总值(GDP)增长率,外媒昨天纷纷这样强调。不同的人看到不一样的风景,但一个显而易见的事实是,只要中国大体维持目前的相对增长优势,上升的步伐便不可阻挡。正如美国《福布斯》日前所说:中国的经济奇迹没有结束,而是进入了第二阶段。', '虽然增长放缓,挑战越来越多,但中国的进步有目共睹。《纽约时报》17日称,过去11个季度的官方数据显示,中国经济增长在6.7%到7.2%之间。从国际标准看,这是令人吃惊的长期稳定增长。与此形成鲜明对比的是,美国的季度增长经常仅为一两个百分点。过去12年,中国蓝领工人薪酬激增8倍,这大幅削弱了中国的劳工成本优势,不过同时也促进了经济繁荣,推动消费增长。', '日本《外交学者》称,过去几十年中国GDP保持两位数增长,但现在增幅仅为6%到7%之间。尽管中国经济增长确实放缓了,但中国消费者强势登上世界舞台的购买力并没有减弱的趋势。事实上,中国消费者的购买力今后还将变得更加显著。麦肯锡分析师预计,到2020年中国将有近4亿家庭收入在1.6万到3.4万美元之间的“主流消费者”,或者说中产阶层消费者。这些消费者的强大实力将震撼世界。', '19日,第17届上海国际车展将拉开帷幕。法新社称,全球汽车厂商本周汇聚中国,面对世界最大汽车市场上的激烈竞争,业界正在为销售放缓和潜在的价格战做好准备。不过,应该客观认识中国汽车产业遇到的这些麻烦,中国对汽车厂商来说仍是一座金矿。去年美国汽车销量创下历史新高,达到1755万辆,但中国早在8年前就超越这个数字并成为世界第一大汽车市场。', '“中国奇迹没有结束,而是进入了第二阶段”,美国《福布斯》日前刊文称,1980年,世界人口最多的国家也是最贫困的国家之一。30多年后,中国已成为仅次于美国的世界第二大经济体。去年中国GDP达到10.8万亿美元。此前,从没有一个像中国这样规模如此之大、情况如此之复杂、历史如此之悠久的国家能在如此短的时间内迅速崛起。过去6年来,中国平均增速“仅为”6%到9%之间,这使得有些人宣称中国奇迹结束了。这些人错了,中国只是进入了第二阶段。中国政府在保持稳定的同时寻求发展。我们可将此解释为努力将中国经济从侧重制造和出口转向更成熟的经济发展推动力量。通过致力于现代化增长的四大支柱消费、科技、高端制造和服务业,中国将推动其经济增长奇迹转型和继续发展。']
' '.join(article)
'[环球时报综合报道] “增长表现超出预期”,对于中国国家统计局公布的今年一季度6.9%的国内生产总值(GDP)增长率,外媒昨天纷纷这样强调。不同的人看到不一样的风景,但一个显而易见的事实是,只要中国大体维持目前的相对增长优势,上升的步伐便不可阻挡。正如美国《福布斯》日前所说:中国的经济奇迹没有结束,而是进入了第二阶段。 虽然增长放缓,挑战越来越多,但中国的进步有目共睹。《纽约时报》17日称,过去11个季度的官方数据显示,中国经济增长在6.7%到7.2%之间。从国际标准看,这是令人吃惊的长期稳定增长。与此形成鲜明对比的是,美国的季度增长经常仅为一两个百分点。过去12年,中国蓝领工人薪酬激增8倍,这大幅削弱了中国的劳工成本优势,不过同时也促进了经济繁荣,推动消费增长。 日本《外交学者》称,过去几十年中国GDP保持两位数增长,但现在增幅仅为6%到7%之间。尽管中国经济增长确实放缓了,但中国消费者强势登上世界舞台的购买力并没有减弱的趋势。事实上,中国消费者的购买力今后还将变得更加显著。麦肯锡分析师预计,到2020年中国将有近4亿家庭收入在1.6万到3.4万美元之间的“主流消费者”,或者说中产阶层消费者。这些消费者的强大实力将震撼世界。 19日,第17届上海国际车展将拉开帷幕。法新社称,全球汽车厂商本周汇聚中国,面对世界最大汽车市场上的激烈竞争,业界正在为销售放缓和潜在的价格战做好准备。不过,应该客观认识中国汽车产业遇到的这些麻烦,中国对汽车厂商来说仍是一座金矿。去年美国汽车销量创下历史新高,达到1755万辆,但中国早在8年前就超越这个数字并成为世界第一大汽车市场。 “中国奇迹没有结束,而是进入了第二阶段”,美国《福布斯》日前刊文称,1980年,世界人口最多的国家也是最贫困的国家之一。30多年后,中国已成为仅次于美国的世界第二大经济体。去年中国GDP达到10.8万亿美元。此前,从没有一个像中国这样规模如此之大、情况如此之复杂、历史如此之悠久的国家能在如此短的时间内迅速崛起。过去6年来,中国平均增速“仅为”6%到9%之间,这使得有些人宣称中国奇迹结束了。这些人错了,中国只是进入了第二阶段。中国政府在保持稳定的同时寻求发展。我们可将此解释为努力将中国经济从侧重制造和出口转向更成熟的经济发展推动力量。通过致力于现代化增长的四大支柱消费、科技、高端制造和服务业,中国将推动其经济增长奇迹转型和继续发展。'
' '.join([p.text.strip() for p in artibody_soup.select('#artibody p')[1:-2]])
'[环球时报综合报道] “增长表现超出预期”,对于中国国家统计局公布的今年一季度6.9%的国内生产总值(GDP)增长率,外媒昨天纷纷这样强调。不同的人看到不一样的风景,但一个显而易见的事实是,只要中国大体维持目前的相对增长优势,上升的步伐便不可阻挡。正如美国《福布斯》日前所说:中国的经济奇迹没有结束,而是进入了第二阶段。 虽然增长放缓,挑战越来越多,但中国的进步有目共睹。《纽约时报》17日称,过去11个季度的官方数据显示,中国经济增长在6.7%到7.2%之间。从国际标准看,这是令人吃惊的长期稳定增长。与此形成鲜明对比的是,美国的季度增长经常仅为一两个百分点。过去12年,中国蓝领工人薪酬激增8倍,这大幅削弱了中国的劳工成本优势,不过同时也促进了经济繁荣,推动消费增长。 日本《外交学者》称,过去几十年中国GDP保持两位数增长,但现在增幅仅为6%到7%之间。尽管中国经济增长确实放缓了,但中国消费者强势登上世界舞台的购买力并没有减弱的趋势。事实上,中国消费者的购买力今后还将变得更加显著。麦肯锡分析师预计,到2020年中国将有近4亿家庭收入在1.6万到3.4万美元之间的“主流消费者”,或者说中产阶层消费者。这些消费者的强大实力将震撼世界。 19日,第17届上海国际车展将拉开帷幕。法新社称,全球汽车厂商本周汇聚中国,面对世界最大汽车市场上的激烈竞争,业界正在为销售放缓和潜在的价格战做好准备。不过,应该客观认识中国汽车产业遇到的这些麻烦,中国对汽车厂商来说仍是一座金矿。去年美国汽车销量创下历史新高,达到1755万辆,但中国早在8年前就超越这个数字并成为世界第一大汽车市场。 “中国奇迹没有结束,而是进入了第二阶段”,美国《福布斯》日前刊文称,1980年,世界人口最多的国家也是最贫困的国家之一。30多年后,中国已成为仅次于美国的世界第二大经济体。去年中国GDP达到10.8万亿美元。此前,从没有一个像中国这样规模如此之大、情况如此之复杂、历史如此之悠久的国家能在如此短的时间内迅速崛起。过去6年来,中国平均增速“仅为”6%到9%之间,这使得有些人宣称中国奇迹结束了。这些人错了,中国只是进入了第二阶段。中国政府在保持稳定的同时寻求发展。我们可将此解释为努力将中国经济从侧重制造和出口转向更成熟的经济发展推动力量。通过致力于现代化增长的四大支柱消费、科技、高端制造和服务业,中国将推动其经济增长奇迹转型和继续发展。'
artibody_editor = artibody_soup.select('.article-editor')[0].text.lstrip('责任编辑:')
print(artibody_editor)
李伟山 
artibody_title = artibody_soup.select('title')[0].text
print(artibody_title)
美媒:中国奇迹没有结束 而是进入了第二阶段|中国经济_新浪新闻
artibody_p = artibody_div.select('p')[0].contents
print(artibody_p)
['\u3000\u3000原标题:美媒:中国奇迹没有结束,而是进入了第二阶段']
artibody_time = artibody_soup.select('.time-source')[0].contents[0].strip()
from datetime import datetime
dt = datetime.strptime(artibody_time, '%Y年%m月%d日%H:%M')
print(dt.strftime('%Y-%m-%d %H:%M'))
2017-04-18 02:25
artibody_from = artibody_soup.select('.time-source span a')[0].text
print(artibody_from)
环球网
artibody_commentCount = artibody_soup.select('.page-tool-i')
print(artibody_commentCount)
[<span class="page-tool-i page-tool-s" title="分享">
<a href="javascript:;" id="shareArticleButton" onclick="_S_uaTrack('index_news_content', 'other_click');">分享</a>
</span>, <span class="page-tool-i page-tool-c page-tool-share" title="评论">
<span id="commentCount1"></span>
<a href="javascript:;" suda-uatrack="key=index_news_content&amp;value=comment_click"></a>
</span>, <span class="page-tool-i page-tool-s" title="分享">
<a href="javascript:;" id="shareArticleButton2" onclick="_S_uaTrack('index_news_content', 'other_roll_click');">分享</a>
</span>, <span class="page-tool-i page-tool-c page-tool-share" id="pageToolShare" title="评论">
<a href="javascript:;" suda-uatrack="key=index_news_content&amp;value=comment_roll_click"></a>
<span id="commentCount1M"></span>
</span>]
comment_url = 'http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyeimzx6745829&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20'
comment_res = requests.get(comment_url)
comment_res.encoding = 'utf-8'
print(comment_res.text)
var data={"result": {"status": {"msg": "", "code": 0}, "count": {"qreply": 10065, "total": 10756, "show": 200}, "replydict": {"58F5941B-CA2D81B7-5D7A2F91-8C6-8ED": [{"status": "M_PASS", "usertype": "wap", "thread": "", "parent": "", "level": "0", "ip": "219.133.40.14", "area": "\u5e7f\u4e1c\u6df1\u5733", "newsid": "comos-fyeimzx6745829", "mid": "58F56F0A-DB85280E-EA280EB0-8C6-8D5", "against": "0", "content": "\u4e2d\u56fd\u6c7d\u8f662016\u5e74\u4ea7\u9500\u91cf2800\u4e07\u8f86\uff0c\u5168\u7403\u7b2c\u4e00\uff0c\u7f8e\u56fd1800\u4e07
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值