爬虫入门tast4:爬取某新闻

爬取某新闻

  • 1 了解ajax加载
  • 2 通过chrome的开发者工具,监控网络请求,并分析
  • 3 用selenium完成爬虫
  • 4 具体流程如下:
import time
from  selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://news.qq.com/')

两秒垂直滚动一次

for i in range(1,100):
    time.sleep(2)
    driver.execute_script("window.scrollTo(window.scrollX, %d);"%(i*200))

在这里插入图片描述
利用xpath定位标签(其中data-biz每天会变,如果爬出来为空的话记得修改xpath):

html=driver.page_source
from lxml import etree
tree = etree.HTML(html) 
content = tree.xpath('//ul[@data-biz="5999"]/li')   # data-biz每天会变
    

结果就不展示了,大家可以输出看看

for k, i in enumerate(content):
    try:
        url = i.xpath('./div/h3/a/@href')[0]
        title = i.xpath('./div/h3/a/text()')[0]
        print('序号:%d title:%s url:%s' % (k, title, url))
    except:
        url = i.xpath('./h3/a/@href')[0]
        title = i.xpath('./h3/a/text()')[0]
        print('序号:%d title:%s url:%s' % (k, title, url))

driver.close()  # 关闭浏览器一个Tab
# or
driver.quit()  # 关闭浏览器窗口
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值