python爬取新浪新闻意义_python 新浪新闻的爬虫（将标题和内容写到json文件中）...

最新推荐文章于 2024-01-12 10:43:48 发布

weixin_39803977

最新推荐文章于 2024-01-12 10:43:48 发布

阅读量201

点赞数

文章标签： python爬取新浪新闻意义

import urllib.request

import re

data=urllib.request.urlopen("http://news.sina.com.cn/").read()

#"ignore"就是为了防止报错的

data=data.decode("utf-8","ignore")

#这是一个正则

pat='href="(https://news.sina.com.cn/c/.*?)"'

allurl=re.compile(pat).findall(data)

dirt={}

for i in range(0,len(allurl)):

total=urllib.request.urlopen(allurl[i])).read().decode("utf-8","ignore")

#标题的正则

title_pat='"main-title">(.*?)'

#正则匹配到的数据

title_one=re.compile(title_pat).findall(total)

#将数组转成字符串

title_one="".join(title_one)

#内容的正则

con_pat='

([\d\D]*)

#正则匹配到的数据

con_one=re.compile(con_pat).findall(total)

#将数组转成字符串

con_one="".join(con_one)

#将数剧装入字典中

dirt[title_one]=con_one

>>> fn=open("D:/myjson1.json","wb")

#str(mydirt)表示字典转字符串，str(mydirt).encode(encoding='utf-8')：表示解码后的字节

>>> fn.write(str(mydirt).encode(encoding='utf-8'))

>>>fn.close()

如果有用投个币吧

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注