今天分享一下对巨潮资讯网一些信息的爬取是如何做的,首先选择这个网站是因为网站内容还是相对来说比较简单的,主要是页面的元素比较容易定位的。主要用到的知识点还是用到“非贪婪匹配符号”的应用。
核心:
正则库:import re
非贪婪匹配:.*?
正则函数:sub()
符号处理:strip()、split()
其他库:selenium webdriver(是从浏览器操作的,这个是必须要有的)
实现过程如下:
from selenium import webdriver import re def getContents(keyword): browser = webdriver.Chrome() url = 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=' + keyword browser.get(url) data = browser.page_source browser.quit() # 正则表达式处理 p_title = '<span title="" class="r-title">(.*?)</span>' p_href = '<a target="_blank" href="(.*?)" data-id='