网易新闻app自媒体号信息爬取

最新推荐文章于 2024-08-22 16:27:01 发布

github_38838414

最新推荐文章于 2024-08-22 16:27:01 发布

阅读量3.4k

点赞数

分类专栏： java 文章标签：爬虫

本文链接：https://blog.csdn.net/github_38838414/article/details/81080009

版权

本文介绍了如何使用fiddler4和IDEA对网易新闻app的自媒体号进行数据爬取，包括抓包分析、生产者消费者模型的Java实现、解决汉字base64编码问题及线程安全的set去重策略。文章详细讲解了爬取流程和可能遇到的难点。

摘要由CSDN通过智能技术生成

##目的：对网易新闻app进行自媒体号进行数据采集

工具： fiddler4，IDEA

前置技能点：

Java基础，基本语法，文件操作，Date类应用，maven的配置等
fiddler抓包
生产者消费者模型的Java实现
Java httpclient包的基本运用
JSONObject类的运用

##流程：
###1. 用fiddler对网易新闻app进行抓包研究（此处最为复杂，又难以归纳出通用的法则）
下面给出几个关键的url

简介获取网址： http://c.m.163.com/nc/subscribe/abstract/自媒体id.html
以T1436178714849这个自媒体id为例
以get方式对该url进行请求，获取到下列返回数据，经过观察，我们可以发现该串json数据中的desc键描述了该自媒体的简介信息

{
    "abstractList": [
        {
            "topicid": "051187K4",
            "ename": "T1437980175117",
            "img": "http://dingyue.nosdn.127.net/CPyl06T14=6lx2V=Gy8BzwbDVnng40gvC2mkcTZmgYTvn1488900231940.jpg",
            "hasIcon": true,
            "tname": "智观察",
            "subnum": "9164",
            "topic_icons": "http://dingyue.nosdn.127.net/CPyl06T14=6lx2V=Gy8BzwbDVnng40gvC2mkcTZmgYTvn1488900231940.jpg",
            "tid": "T1437980175117"
        },
        {
            "topicid": "0511838M",
            "ename": "T1426650607511",
            "img": "http://img1.ph.126.net/0JLWi3-AFGkp_IJ39FzhTQ==/6619378857584634163.jpg",
            "hasIcon": true,
            "tname": "芯智讯",
            "subnum": "1万",
            "topic_icons": "http://img1.ph.126.net/0JLWi3-AFGkp_IJ39FzhTQ==/6619378857584634163.jpg",
            "tid": "T1426650607511"
        },
        {
            "topicid": "0511831Q",
            "ename": "T1425885645380",
            "img": "http://img2.ph.126.net/NiwTiVUjwMyfEbGGNuiAyA==/6630195852978107453.jpg",
            "hasIcon": true,
            "tname": "华强北在线",
            "subnum": "1.5万",
            "topic_icons": "http://img2.ph.126.net/NiwTiVUjwMyfEbGGNuiAyA==/6630195852978107453.jpg",
            "tid": "T1425885645380"
        }
    ],
    "abstractType": "similar",
    "desc": "3D打印在线(www.3d2013.com)是由世界3D打印技术产业联盟与中国3D打印技术产业联盟联袂主办的3D打印行业首家在线交易平台，是3D打印行业权威的信息资讯门户。"
}

同理对名称，别名等信息获取网址: http://c.m.163.com/nc/subscribe/v2/topic/自媒体id.html
利用get方式进行请求，获取下列json数据，可以通过该数据获取到自媒体的名称（tname），粉丝数（subnum），别名（alias）等信息

{
    "tab_list": [
        {
            "tab_type": "all",
            "tab_name": "文章"
        },

最低0.47元/天解锁文章

github_38838414

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录