import urllib.request
import re
data=urllib.request.urlopen("http://news.sina.com.cn/").read()
#"ignore"就是为了防止报错的
data=data.decode("utf-8","ignore")
#这是一个正则
pat='href="(https://news.sina.com.cn/c/.*?)"'
allurl=re.compile(pat).findall(data)
dirt={}
for i in range(0,len(allurl)):
total=urllib.request.urlopen(allurl[i])).read().decode("utf-8","ignore")
#标题的正则
title_pat='"main-title">(.*?)'
#正则匹配到的数据
title_one=re.compile(title_pat).findall(total)
#将数组转成字符串
title_one="".join(title_one)
#内容的正则
con_pat='
#正则匹配到的数据
con_one=re.compile(con_pat).findall(total)
#将数组转成字符串
con_one="".join(con_one)
#将数剧装入字典中
dirt[title_one]=con_one
>>> fn=open("D:/myjson1.json","wb")
#str(mydirt)表示字典转字符串,str(mydirt).encode(encoding='utf-8'):表示解码后的字节
>>> fn.write(str(mydirt).encode(encoding='utf-8'))
>>>fn.close()
如果有用投个币吧