文章目录
前文提要:通过python+selenium统计CSDN博客(上):统计阅读量
由于个人主页的摘要信息中,并没有提供收藏数,为了获取收藏数,就得逐一点相应的页面,所以要获取标题对应的链接。
首先还是进入博客主页
from selenium import webdriver
url = 'https://blog.csdn.net/m0_37816922?type=blog'
driver = webdriver.Edge()
driver.get(url)
然后发现链接被存放在一个a标签中
<a data-v-6fe2b6a7="" href="https://blog.csdn.net/m0_37816922/article/details/122035260?spm=1001.2014.3001.5502" target="_blank" data-report-click="{"spm":"3001.5502"}" data-report-query="spm=3001.5502"><div data-v-6fe2b6a7="" class="blog-list-box-top"><h4 data-v-6fe2b6a7="">【C标准库】get和put</h4></div> </a>
为了获取链接,可以先复制一下这个a标签的完整Xpath,得到
/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article[1]/a
然后获取所有a标签所对应的链接,需要注意,刚刚获取的xpath仅仅是一篇文章的,所以article
后面有一个[1]
,在下面的代码中,去掉这个[1]
,可以获取当前页面上的所有这个路径下的a
标签,然后再提取出a
标签中的href
就行了
xpath = '/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article/a'
links = driver.find_elements_by_xpath(xpath)
links = [L.get_attribute('href') for L in links]
若要获取所有文章链接,则需如前文所述不断下拉。
接下来需要打开每一个链接,然后研究一下博客页面,有关博客的信息精简如下
<div class="article-header">
<div class="article-title-box">
<h1 class="title-article" >【C标准库】stdio.h</h1>
</div>
<div class="article-info-box">
<div class="article-bar-top">
<span class="time">2021-12-20 11:46:45</span>
<span class="read-count">6</span>
<a id="blog_detail_zk_collection" class="un-collection" >
<span class="name">收藏</span>
<span class="get-collection"></span>
</a>
</div></div></div></div>
其中,标题位于h1
中的title-article
类;阅读量为read-count
类的一个span。比较尴尬的是我选的这篇文章竟然没人收藏。不得已打开一个有收藏的文章,发现收藏数被放在一个get-collection
的span中,则按照此前的方法不难得到各种信息
infoDict = {
"title":'title-article',
"time":"time",
"read":'read-count',
"collection":'get-collection'}
getElement = lambda value : driver.find_element_by_class_name(value).text
tmp = {key:getElement(infoDict[key]) for key in infoDict}
从而得到
{'title': '【C标准库】stdio.h', 'time': '2021-12-20 11:46:45', 'read': '6', 'collection': ''}
接下来可以逐一对所有的链接执行此项操作
infos = []
for url in links:
driver.get(url)
infos.append({key:getElement(infoDict[key]) for key in infoDict})
最后将infos
写入csv
import csv
f = open('blogs.csv','w',newline='')
w = csv.writer(f)
for info in infos:
w.writerow(list(info.values()))
f.close()
然后就得到了所有博文的收藏量