Python爬虫初级（十二）—— 新闻消息爬取实战

最新推荐文章于 2024-02-23 11:40:22 发布

ChenKai_164

最新推荐文章于 2024-02-23 11:40:22 发布

阅读量384

点赞数

分类专栏： python 爬虫文章标签： python 定位 selenium html 其他

本文链接：https://blog.csdn.net/ChenKai_164/article/details/105806862

版权

python 爬虫专栏收录该内容

14 篇文章 6 订阅

订阅专栏

欢迎关注公众号K的笔记阅读博主更多优质学习内容
K的笔记公众号

上一篇内容：Python爬虫初级（十一）—— Selenium 详解

链接介绍

我们需要爬取的链接是：https://news.qq.com/
我们最终的爬取目标是将所有标题及其内容罗列出来存储为表格文档

爬取过程

其实这个爬虫的代码特别简单，就是使用我们前面学的 Selenium
教程，下面拆分代码进行讲解：

首先自然就是导入所需的所有库：

from bs4 import BeautifulSoup
from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
import time
import csv

然后通过 driver 打开上面给出的链接：

driver = webdriver.Chrome()
driver.get("https://news.qq.com/")

然后由于新闻页面需要滑动才会显示下面的内容，我们设置一个控制屏幕滑动的代码：

for i in range(1,100):
    time.sleep(1)
    driver.execute_script("window.scrollTo(window.scrollX, %d);"%(i*150))

我们知道爬取这些由 JS 控制的页面时的困难主要在于我们得到的页面源代码和我们点击 F12 查看控制台看到的东西不是一回事，而 Selenium 的一大好处就是我们可以模拟浏览器查看时的状态，也就是我们可以像平时一样查看 Element 等属性，我们只需要定位到相应的标题行，得到对应的内容格式：

Element1
以及打开每一个 li 后得到的内容：

Element 我们可以写出代码：

html=driver.page_source
soup=BeautifulSoup(html,"lxml")
jx_tit=soup.find_all("div",{"class":"jx-tit"})[0].find_next_sibling().find_all("li")

然后根据上面第二张 Element 图中解析出的格式保存相关信息即可：

f = open('news.csv','w',encoding='utf-8')
csv_writer = csv.writer(f)
csv_writer.writerow(["index",",","title",",","url"])
for i,jxtit in enumerate(jx_tit):    
    try:
        text=jxtit.find_all("img")[0]["alt"]
    except:
        text=jxtit.find_all("div",{"class":"lazyload-placeholder"})[0].text
    try:
        url=jxtit.find_all("a")[0]["href"]
    except:
        print(jxtit)
    csv_writer.writerow([i+1,text,url]) 
f.close()

ChenKai_164

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫初级（十二）—— 新闻消息爬取实战

上一篇内容：Python爬虫初级（十一）—— Selenium 详解链接介绍我们需要爬取的链接是：https://news.qq.com/我们最终的爬取目标是将所有标题及其内容罗列出来存储为表格文档爬取过程其实这个爬虫的代码特别简单，就是使用我们前面学的 Selenium教程，下面拆分代码进行讲解：首先自然就是导入所需的所有库：from bs4 import BeautifulSo...
复制链接

扫一扫

专栏目录