1 需求
新浪新闻标题和网址爬取,并进行数据清洗。
2 代码实现
import re
from selenium import webdriver
# 获取网页源代码
browser = webdriver.Chrome()
browser.get('https://news.sina.com.cn/china/')
data = browser.page_source
browser.quit()
# 获取网页网址
p_href = '<h2 suda-uatrack="key=index_feed&value=news_click.*?<a href="(.*?)" target="_blank">'
href = re.findall(p_href, data)
# 获取网页标题
p_title = '<h2 suda-uatrack="key=index_feed&value=news_click.*?target="_blank">(.*?)</a></h2>'
title = re.findall(p_title, data, re.S)
# 数据清洗
for index in range(len(title)):
# title[index] = title[index].strip()
print(str(index + 1) + "." + title[index] + "(" + href[index] + ")")