知识要点还是之前的方法:
1. .*? 匹配全部内容的正则
2. selenium中元素定位方法 find_element_by_xpath 绝对路径的获取方法
3. 字符串内容拼接方法 .join()
实现步骤:
1.打开Chrome浏览器,并访问被测地址
2.自动翻页获取网页源码
3.循环遍历每页包含关键字【理财】的标题title
4.正则表达式区标题内容,并对数据进行清洗
案例背景页面:

详细代码实现如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File : Newsjuchao.py
# @Author: Wang jianhua
# @Date : 2020/10/19
# @Desc : 批量下载巨潮资讯网-包含关键字【理财】的新闻标题
#@Contact : wjhwang@126.com
#@Software : PyCharm
from selenium import webdriver
import re
import time
browser = webdriver.Chrome()
browser.maximize_window() #浏览器最大化
url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=理财' #被测地址
browser.get(url)
time.sleep(3)
data = b

使用Python结合selenium爬取巨潮资讯网含有【理财】关键字的新闻标题,通过正则表达式清洗数据,展示如何批量下载标题并进行数据存储。
最低0.47元/天 解锁文章
1938

被折叠的 条评论
为什么被折叠?



