爬虫前行中（datawhale task4）

最新推荐文章于 2024-07-24 10:38:58 发布

JerryZengZ

最新推荐文章于 2024-07-24 10:38:58 发布

阅读量203

点赞数

分类专栏：打卡总结笔记文章标签：爬虫实战

本文链接：https://blog.csdn.net/JerryZengZ/article/details/105790965

版权

总结同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

打卡

8 篇文章 0 订阅

订阅专栏

笔记

8 篇文章 0 订阅

订阅专栏

腾讯新闻爬取

from selenium import webdriver
from lxml import etree
import time
url = 'https://news.qq.com/'
bro = webdriver.Chrome()
bro.get(url)
for i in range(5):
    bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    time.sleep(3)
res = bro.page_source

tree = etree.HTML(res)
lis = tree.xpath('//ul[@class="list"]/li')
for li in lis:
    try: 
        title = li.xpath('./div[@class="detail"]/h3/a/text()')[0]
        url = li.xpath('./div[@class="detail"]/h3/a/@href')[0]
        print(title,url)
    except:
        continue

结果：
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JerryZengZ

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫前行中（datawhale task4）

腾讯新闻爬取from selenium import webdriverfrom lxml import etreeimport timeurl = 'https://news.qq.com/'bro = webdriver.Chrome()bro.get(url)for i in range(5): bro.execute_script('window.scrollTo(0...
复制链接

扫一扫