很多人可能每天都要浏览新闻,但是每一天都需要刷很多的新闻客户端。今天就用Python大法来解决你的烦恼,让你一次看个够。。。
基本思路
爬取新闻的方法有很多,可以通过解析网页,也可以利用API爬取。今天就正式一点,利用网易的新闻API接口来爬取数据。通过访问接口,解析返回来的数据,保存你关心想要的信息。
API:http://c.m.163.com/nc/article/headline/T1348647853363/0-100.html
观察数据信息
访问网易新闻的API,可以看到一大堆的新闻数据,并且数据类型跟字典类似。所以转换为json格式,方便提取。
代码:
import requests
import json
url = 'http://c.m.163.com/nc/article/headline/T1348647853363/0-100.html'
header = {
'User-Agent': 'Mozilla/4.0(compatible;MSIE