爬虫之巨潮资讯网关键词信息获取

最新推荐文章于 2024-04-25 08:30:00 发布

Blogfish

最新推荐文章于 2024-04-25 08:30:00 发布

阅读量3.1w

点赞数 1

分类专栏：爬虫 selenium 文章标签：爬虫

本文链接：https://blog.csdn.net/wangjianhuahua/article/details/121064699

版权

本文介绍了如何使用爬虫技术从巨潮资讯网上获取信息，重点在于正则表达式的非贪婪匹配应用，涉及re库、sub函数、字符串处理以及selenium webdriver的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天分享一下对巨潮资讯网一些信息的爬取是如何做的，首先选择这个网站是因为网站内容还是相对来说比较简单的，主要是页面的元素比较容易定位的。主要用到的知识点还是用到“非贪婪匹配符号”的应用。

核心：

正则库：import re

非贪婪匹配：.*?

正则函数：sub()

符号处理：strip()、split()

其他库：selenium webdriver(是从浏览器操作的，这个是必须要有的)

实现过程如下：

from selenium import webdriver
import re

def getContents(keyword):
    browser = webdriver.Chrome()
    url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=' + keyword
    browser.get(url)
    data = browser.page_source
    browser.quit()

    # 正则表达式处理
    p_title = '<span title="" class="r-title">(.*?)</span>'
    p_href = '<a target="_blank" href="(.*?)" data-id='