Python简单抓取新浪某网页新闻链接及标题

最新推荐文章于 2024-07-10 11:16:42 发布

BetaBin

最新推荐文章于 2024-07-10 11:16:42 发布

阅读量1.5w

点赞数

分类专栏： Python 文章标签： python import input url email exception

本文链接：https://blog.csdn.net/betabin/article/details/7661554

版权

本文介绍了一个使用Python实现的简单教程，演示如何抓取新浪网站上某一特定网页的新闻链接和标题。虽然作者对网页和网络知识不熟悉，且在编程过程中遇到了一些错误，但最终代码能够成功抓取http://roll.tech.sina.com.cn/tele/2012-05-01.shtml页面的新闻信息。文章提及了未来可能的改进方向，如完善Windows服务集成和其他待解决的问题。

摘要由CSDN通过智能技术生成

进行了一些拓展（还可以再扩展，吧tele中间路径从主页中获取到，然后用map给用户选择）：

#这里可以再改进，进行扩展，自行输入时间（貌似都一样，正则还是可以用）
#doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read()
newsYear = raw_input("Please input the year likes 2012: ")
newsMouth = raw_input("Please input the mouth likes 03: ")
newsDay = raw_input("Please input the day likes 02: ")
doc = urlopen("http://roll.tech.sina.com.cn/tele/" + \
              newsYear + "-" + \
              newsMouth + "-" + \
              newsDay + \
              ".shtml").read()

没怎么接触网页及网络相关知识，再用没上手的Python，下面这段程序一波三折，bugs不少，但勉强还算是实现了对http://roll.tech.sina.com.cn/tele/2012-05-01.shtm