Python简单抓取新浪某网页新闻链接及标题

最新推荐文章于 2025-06-12 15:19:30 发布

BetaBin

最新推荐文章于 2025-06-12 15:19:30 发布

阅读量1.6w

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： python import input url email exception

本文链接：https://blog.csdn.net/BetaBin/article/details/7661554

本文介绍了一个使用Python实现的简单教程，演示如何抓取新浪网站上某一特定网页的新闻链接和标题。虽然作者对网页和网络知识不熟悉，且在编程过程中遇到了一些错误，但最终代码能够成功抓取http://roll.tech.sina.com.cn/tele/2012-05-01.shtml页面的新闻信息。文章提及了未来可能的改进方向，如完善Windows服务集成和其他待解决的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

进行了一些拓展（还可以再扩展，吧tele中间路径从主页中获取到，然后用map给用户选择）：

#这里可以再改进，进行扩展，自行输入时间（貌似都一样，正则还是可以用）
#doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read()
newsYear = raw_input("Please input the year likes 2012: ")
newsMouth = raw_input("Please input the mouth likes 03: ")
newsDay = raw_input("Please input the day likes 02: ")
doc = urlopen("http://roll.tech.sina.com.cn/tele/" + \
              newsYear + "-" + \
              newsMouth + "-" + \
              newsDay + \
              ".shtml").read()

没怎么接触网页及网络相关知识，再用没上手的Python，下面这段程序一波三折，bugs不少，但勉强还算是实现了对http://roll.tech.sina.com.cn/tele/2012-05-01.shtml网页新闻的抓取。win系统服务没加上，及一堆问题，待续……

# -*- coding: cp936 -*-
import win32serviceutil
import win32service
import win32event
from urllib import urlretrieve
from urll

最低0.47元/天解锁文章

200万优质内容无限畅学