import urllib.request
import re
import time
num=input("输入日期(20150101000):")
def openpage(url):
html=urllib.request.urlopen(url)
page=html.read().decode(‘gb2312‘)
return page
def getpassage(page):
passage = re.findall(r‘
([\s\S]*)‘,str(page))
passage1=re.sub("?\w+[^>]*>", "", str(passage))
passage2=passage1.replace(‘\\r‘, ‘\r‘).replace(‘\\n‘, ‘ \n‘).replace(‘\\t‘,‘\t‘).replace(‘]‘,‘‘).replace(‘[‘,‘‘).replace(‘ ‘,‘ ‘)
print(passage2)
with open(load,‘a‘,encoding=‘utf-8‘) as f:
f.write("-----------------------------"+"日期"+str(date)+"---------------------------------\n"+passage2+"----------------------------------------------------\n")
for i in range(1,32):
date=int(num)+int(i)
print(date)
load="C:/Users/home/Desktop/新建文本文档.txt"
url=("http://www.hbuas.edu.cn/news/xyxw/news_"+str(date)+".htm")
try:
page=openpage(url)
getpassage(page)
print("第"+str(i)+"号有文章,----已下载")
except:
print("第"+str(i)+"号无文章。")
time.sleep(2)
写了一个爬学校新闻网的爬虫,
主要涉及 re正则 urllib.request 文件的写入
在爬取文章时通常会返回很多影响美感的代码
如下:
优化:
两次正则
passage = re.findall(r‘
([\s\S]*)‘,str(page)) #第一次匹配字段
passage1=re.sub("?\w+[^>]*>", "", str(passage)) # 第二次去掉html标签
替换
passage2=passage1.replace(‘\\r‘, ‘\r‘).replace(‘\\n‘, ‘ \n‘).replace(‘\\t‘,‘\t‘).replace(‘]‘,‘‘).replace(‘[‘,‘‘).replace(‘ ‘,‘ ‘)
效果如下:
over!
时间: 08-12