自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学习笔记

一步一脚印

  • 博客(3)
  • 收藏
  • 关注

原创 selenium用try-except嵌套处理抓取异常(新闻抓取案例三)

今天练习的是新闻内容局部抓取,不需要打印全文,只需要打印前面两三段,所以可以直接定位到前三段的p标签content1=driver.find_element_by_xpath("//*[@id='newsmain-ej']/div/div[1]/div[1]/div[4]/div/p[1]").textcontent2=driver.find_element_by_xpath("//*[@...

2018-09-24 22:42:16 13868 1

原创 selenium多窗口切换抓取内容(新闻抓取案例二)

今天做的练习是抓取人民网上面的新闻,和第一篇笔记不同的是这次点击链接是在新窗口打开,涉及到切换窗口抓取的问题。xpath方法是定位到具体层级的,不能跳跃地忽略父从爷定位到孙。由于这次的案例是a标签被包裹在不同的父div中,所以可以用*表示任意父div,再定位到后面的p/strong/a里:links=driver.find_elements_by_xpath("/html/body/div[...

2018-09-24 17:16:19 2003

原创 selenium点击链接进入子页面抓取内容(新闻抓取案例一)

找了一个新闻网站练习爬虫抓取,目标:逐一点击目录标题,进入详细新闻页面,抓取子页面的标题和正文内容并打印出来,返回目录标题页,点击下一篇文章。注:没有新开窗口,是在原窗口实现跳转。新开窗口进行抓取看下一篇文章。试了很多种方法都抓取不到class=rightContent下面每个a标签里的href链接,开始思考是不是因为href链接都放在li列表里面导致。后面终于试到怎么获取这些在列表l...

2018-09-23 08:55:39 25738 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除