知识要点还是之前的方法:
1. .*? 匹配全部内容的正则
2. selenium中元素定位方法 find_element_by_xpath 绝对路径的获取方法
3. 字符串内容拼接方法 .join()
实现步骤:
1.打开Chrome浏览器,并访问被测地址
2.自动翻页获取网页源码
3.循环遍历每页包含关键字【理财】的标题title
4.正则表达式区标题内容,并对数据进行清洗
案例背景页面:
详细代码实现如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File : Newsjuchao.py
# @Author: Wang jianhua
# @Date : 2020/10/19
# @Desc : 批量下载巨潮资讯网-包含关键字【理财】的新闻标题
#@Contact : wjhwang@126.com
#@Software : PyCharm
from selenium import webdriver
import re
import time
browser = webdriver.Chrome()
browser.maximize_window() #浏览器最大化
url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord