Python爬虫技术-根据【理财】关键字爬取“巨潮资讯网”的title

最新推荐文章于 2025-02-05 14:04:58 发布

原创

最新推荐文章于 2025-02-05 14:04:58 发布 · 置顶 · 1.6k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

使用Python结合selenium爬取巨潮资讯网含有【理财】关键字的新闻标题，通过正则表达式清洗数据，展示如何批量下载标题并进行数据存储。

知识要点还是之前的方法：

1. .*? 匹配全部内容的正则

2. selenium中元素定位方法 find_element_by_xpath 绝对路径的获取方法

3. 字符串内容拼接方法 .join()

实现步骤：

1.打开Chrome浏览器，并访问被测地址

2.自动翻页获取网页源码

3.循环遍历每页包含关键字【理财】的标题title

4.正则表达式区标题内容，并对数据进行清洗

案例背景页面：

详细代码实现如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File : Newsjuchao.py
# @Author: Wang jianhua
# @Date : 2020/10/19
# @Desc : 批量下载巨潮资讯网-包含关键字【理财】的新闻标题
#@Contact : wjhwang@126.com
#@Software : PyCharm

from selenium import webdriver
import re
import time
browser = webdriver.Chrome()
browser.maximize_window() #浏览器最大化
url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=理财' #被测地址
browser.get(url)
time.sleep(3)
data = b

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Blogfish 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。