##目的:对网易新闻app进行自媒体号进行数据采集
工具: fiddler4,IDEA
前置技能点:
- Java基础,基本语法,文件操作,Date类应用,maven的配置等
- fiddler抓包
- 生产者 消费者模型的Java实现
- Java httpclient包的基本运用
- JSONObject类的运用
##流程:
###1. 用fiddler对网易新闻app进行抓包研究(此处最为复杂,又难以归纳出通用的法则)
下面给出几个关键的url
简介获取网址: http://c.m.163.com/nc/subscribe/abstract/自媒体id.html
以T1436178714849这个自媒体id为例
以get方式对该url进行请求,获取到下列返回数据,经过观察,我们可以发现该串json数据中的desc键描述了该自媒体的简介信息
{
"abstractList": [
{
"topicid": "051187K4",
"ename": "T1437980175117",
"img": "http://dingyue.nosdn.127.net/CPyl06T14=6lx2V=Gy8BzwbDVnng40gvC2mkcTZmgYTvn1488900231940.jpg",
"hasIcon": true,
"tname": "智观察",
"subnum": "9164",
"topic_icons": "http://dingyue.nosdn.127.net/CPyl06T14=6lx2V=Gy8BzwbDVnng40gvC2mkcTZmgYTvn1488900231940.jpg",
"tid": "T1437980175117"
},
{
"topicid": "0511838M",
"ename": "T1426650607511",
"img": "http://img1.ph.126.net/0JLWi3-AFGkp_IJ39FzhTQ==/6619378857584634163.jpg",
"hasIcon": true,
"tname": "芯智讯",
"subnum": "1万",
"topic_icons": "http://img1.ph.126.net/0JLWi3-AFGkp_IJ39FzhTQ==/6619378857584634163.jpg",
"tid": "T1426650607511"
},
{
"topicid": "0511831Q",
"ename": "T1425885645380",
"img": "http://img2.ph.126.net/NiwTiVUjwMyfEbGGNuiAyA==/6630195852978107453.jpg",
"hasIcon": true,
"tname": "华强北在线",
"subnum": "1.5万",
"topic_icons": "http://img2.ph.126.net/NiwTiVUjwMyfEbGGNuiAyA==/6630195852978107453.jpg",
"tid": "T1425885645380"
}
],
"abstractType": "similar",
"desc": "3D打印在线(www.3d2013.com)是由世界3D打印技术产业联盟与中国3D打印技术产业联盟联袂主办的3D打印行业首家在线交易平台,是3D打印行业权威的信息资讯门户。"
}
同理对名称,别名等信息获取网址: http://c.m.163.com/nc/subscribe/v2/topic/自媒体id.html
利用get方式进行请求,获取下列json数据,可以通过该数据获取到自媒体的名称(tname),粉丝数(subnum),别名(alias)等信息
{
"tab_list": [
{
"tab_type": "all",
"tab_name": "文章"
},