Selenium介绍
Selenium 是一个用于web应用程序 自动化测试 的工具,直接运行在浏览器当中,可以通过代码控制与页面上元素进行交互,并获取对应的信息。Selenium 很大的一个优点是: 不需要复杂地构造请求 ,访问参数跟使用浏览器的正常用户一模一样,访问行为也相对更像正常用户,不容易被反爬虫策略命中, 所见即所得 。Selenium常常是面对一个奇怪反爬网站无从入手的最后一道防线。 当然也有缺点:操作均需要等待页面加载完毕后才可以继续进行,所以速度要慢,效率不高。
需求分析和代码实现
需求很明确:获取早起Python公众号全部推文的 标题 、 日期 、 链接 。 如果要获取公众号的相关信息,有一个很好途径是通过 搜狗微信检索 。 但如果直接使用Requests等库直接请求,会涉及的反爬措施有 cookie 设置, js加密 等等,所以今天就利用Selenium大法!
首先导入所需的库和实例化浏览器对象
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
# 导入第2-4行是为了马上会提到的 显式等待
import time
import datetime
driver = webdriver.Chrome()
'https://weixin.sogou.com/'
)
上述的代码就可以实现 打开搜狗微信搜索 的操作,接下来需要往搜索框里输入文字,并且点击“搜文章”(不直接点搜公众号是因为已经取消通过公众号直接获取相应文章的功能)
wait = WebDriverWait(driver, 10 )
input = wait.until(EC.presence_of_element_located((By.NAME, 'query' )))
input.send_keys( '早起Python' )
"//input[@class='swz']"
).click()
逻辑是设定 最长等待时间 ,在10s内发现了输入框已经加载出来后就输入“早起Python”,并且根据“搜文章”按钮的xpath获取该位置并点击, 这里就用到了 显式等待 。Selenium请求网页等待响应受到网速牵制,如果元素未加载全而代码执行过快就会意外报错而终止,解决方式是 等待 。
隐式等待 是在尝试发现某个元素的时候,如果没能立刻发现,就等待固定长度的时间 driver.implicitly_wait(10) ,显示等待明确了等待条件,只有该条件触发,才执行后续代码,如这里我用到的代码,当然也可以用 time模块 之间设定睡眠时间,睡完了再运行后续代码。跳转了下一页后可以发现不是所有的文章都由“早起Python”公众号推送。
另外只能获取前10页100条的结果,中间需要微信扫码登录
因此从这里开始,代码的 执行逻辑 为:
- 先遍历前10页100个文章的公众号名字,如果不是“早起Python”则跳过,是则获取对应的标题名字、发布日期和链接
- 第10页遍历完成后自动点击登录,此时人为扫码确定登录
- 代码检测登录是否完成(可以简化为识别“下一页”按钮是否出现),如果登录完成则继续从11页遍历到最后一页(没有“下一页”按钮)
由于涉及两次遍历则可以将解析信息包装成函数
num = 0
def get_news () :
global num # 放全局变量是为了给符合条件的文章记序
time.sleep( 1 )
news_lst = driver.find_elements_by_xpath( "//li[contains(@id,'sogou_vr_11002601_box')]" )
for news in news_lst:
# 获取公众号来源
source = news.find_elements_by_xpath( 'div[2]/div/a' )[ 0 ].text
if '早起' not in source:
continue
num += 1
# 获取文章标题
title = news.find_elements_by_xpath( 'div[2]/h3/a' )[ 0 ].text
# 获取文章发表日期
date = news.find_elements_by_xpath( 'div[2]/div/span' )[ 0 ].text
# 文章发表的日期如果较近可能会显示“1天前” “12小时前” “30分钟前”
# 这里可以用`datetime`模块根据时间差求出具体时间
# 然后解析为`YYYY-MM-DD`格式
if '前' in date:
today = datetime.datetime.today()
if '天' in date:
delta = datetime.timedelta(days=int(date[ 0 ]))
elif '小时' in date:
delta = datetime.timedelta(hours=int(date.replace( '小时前' , ' ' )))
else :
delta = datetime.timedelta(minutes=int(date.replace( '分钟前' , ' ' )))
date = str((today - delta).strftime( '%Y-%m-%d' ))
date = datetime.datetime.strptime(date, '%Y-%m-%d' ).strftime( '%Y-%m-%d' )
# 获取url
url = news.find_elements_by_xpath( 'div[2]/h3/a' )[ 0 ].get_attribute( 'href' )
print(num, title, date)
print(url)
print( '-' * 10 )
for i in range( 10 ):
get_news()
if i == 9 :
# 如果遍历到第十页则跳出循环不需要点击“下一页”
break
"sogou_next"
).click()
接下来就是点击“登录”,然后人为扫码登录,可以利用 while True 检测登录是否成功,是否出现了下一页按钮,如果出现则跳出循环,点击“下一页”按钮并继续后面的代码,否则睡3秒后重复检测
driver.find_element_by_name( 'top_login' ).click()
while True :
try :
next_page = driver.find_element_by_id( "sogou_next" )
break
except :
time.sleep( 3 )
next_page.click()
效果如图:
然后就是重新遍历文章了,由于不知道最后一页是第几页可以使用 while循环 反复调用解析页面的函数半点击“下一页”,如果不存在下一页则结束循环
while True :
get_news()
try :
driver.find_element_by_id( "sogou_next" ).click()
except :
break
# 最后退出浏览器即可
driver.quit()
是不是少了点什么?对,就是数据存储,在爬下来数据之后和之前一样利用 openpyxl 存储到excel中即可
现在我们就有了该公众号呢的全部文章标题和URL,就可以使用 Pdfkit 将每一个URL转成PDF格式,本文就不再展开叙述。
了解更多,加入我们,642830685,领取最新软件测试大厂面试资料和Python自动化、接口、框架搭建学习资料!技术大牛解惑答疑,同行一起交流学习。