需求:
爬取全部新浪新闻
切入点:
新浪新闻主页组织很杂,但是通过观察可知,新浪滚动新闻中罗列了所有新闻,而且可以通过类别或日期选择查看,所以,要想爬取所有新闻,我们把切入点变为:
爬取新浪滚动新闻(腾讯新闻等其他新闻网站也是如此)
分析网页
进入新浪滚动新闻页面:
http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1