爬虫入门tast4：爬取某新闻

最新推荐文章于 2022-03-22 14:49:08 发布

胖虎卖汤圆

最新推荐文章于 2022-03-22 14:49:08 发布

阅读量158

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_44315987/article/details/105809275

版权

python 专栏收录该内容

90 篇文章 6 订阅

订阅专栏

爬取某新闻

1 了解ajax加载
2 通过chrome的开发者工具，监控网络请求，并分析
3 用selenium完成爬虫
4 具体流程如下：

import time
from  selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://news.qq.com/')

两秒垂直滚动一次

for i in range(1,100):
    time.sleep(2)
    driver.execute_script("window.scrollTo(window.scrollX, %d);"%(i*200))

在这里插入图片描述
利用xpath定位标签（其中data-biz每天会变，如果爬出来为空的话记得修改xpath）：

html=driver.page_source
from lxml import etree
tree = etree.HTML(html) 
content = tree.xpath('//ul[@data-biz="5999"]/li')   # data-biz每天会变

结果就不展示了，大家可以输出看看

for k, i in enumerate(content):
    try:
        url = i.xpath('./div/h3/a/@href')[0]
        title = i.xpath('./div/h3/a/text()')[0]
        print('序号：%d title：%s url：%s' % (k, title, url))
    except:
        url = i.xpath('./h3/a/@href')[0]
        title = i.xpath('./h3/a/text()')[0]
        print('序号：%d title：%s url：%s' % (k, title, url))


driver.close()  # 关闭浏览器一个Tab
# or
driver.quit()  # 关闭浏览器窗口

胖虎卖汤圆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫入门tast4：爬取某新闻

爬取Tencent新闻1 了解ajax加载2 通过chrome的开发者工具，监控网络请求，并分析3 用selenium完成爬虫4 具体流程如下：import timefrom selenium import webdriverdriver = webdriver.Chrome()driver.get('https://news.qq.com/')两秒垂直滚动一次for...
复制链接

扫一扫