Python爬虫编程实践 Task04（知识梳理脑图+全部资源教程）

最新推荐文章于 2024-09-17 23:15:58 发布

RexT1

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量233

点赞数

分类专栏： # Python爬虫文章标签： python 编程语言

本文链接：https://blog.csdn.net/qq_45556599/article/details/105802811

版权

Python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Python爬虫编程实践

本次跟随Datawhale组队学习Python爬虫，希望能有所收获。Datawhale是一个很好的开源组织，会组织很多免费的知识学习。

附上本次组队学习的计划和教程资料，即使没有当时加入组队学习，有兴趣的话从现在开始学习也不晚哦~

现在学习喜欢用脑图的方式，知识点清晰明了，易于查找和复习，希望也可以帮助大家梳理知识脉络。

一、Task04

整个学习只看代码教程有点跟不上，而且不太懂，看来得回头看一遍视频教学了，这次先借鉴为主吧。

1、大作业

参考代码：

import time
from selenium import webdriver

driver = webdriver.Chrome(executable_path="D:\chromedriver\chromedriver.exe")
driver.get("https://news.qq.com")
# 了解ajax加载
for i in range(1, 100):
    time.sleep(2)
    driver.execute_script("window.scrollTo(window.scrollX, %d);" % (i * 200))

# %%

from bs4 import BeautifulSoup

html = driver.page_source
bsObj = BeautifulSoup(html, "lxml")

# %%

jxtits = bsObj.find_all("div", {"class": "jx-tit"})[0].find_next_sibling().find_all("li")

# %%

print("index", ",", "title", ",", "url")
for i, jxtit in enumerate(jxtits):
    #     print(jxtit)

    try:
        text = jxtit.find_all("img")[0]["alt"]
    except:
        text = jxtit.find_all("div", {"class": "lazyload-placeholder"})[0].text
    try:
        url = jxtit.find_all("a")[0]["href"]
    except:
        print(jxtit)
    print(i + 1, ",", text, ",", url)