写了多年的爬虫,现在总结一份反爬方案和反爬实现方式:
反爬分类:
- IP反爬
- 需要登录
- js加密
- app端请求参数加密
- app端返回数据加密
- 验证码破解
以下为各个站点——
`source` tinyint(4) NOT NULL DEFAULT '0' COMMENT '来源2:今日头条 14小年糕小程序 15种子视频 16西瓜视频 17人民日报客户端 18央视新闻客户端 19中新网客户端 \n 20.糗事百科API 21.网易有料API 22.中国网客户端 24.经济日报客户端 25.好兔视频API 26.玉米祝福 27.人民网API 28.光明日报 29.新华网 30新榜 31好看 33.新华社客户端 32 头条极速版小视频 35. 快手极速版小视频 37. 腾讯视频亲情版\n 38玉米奇趣微信小程序 39 一点资讯图文 40 一点资讯短视频',
以下站点全部是个人做过抓取上线的站点:
新闻资讯及视频类:
今日头条APP
今日头条web站
西瓜视频APP(web站加载需要IP)
央视新闻客户端
人民日报客户端
中国新闻网客户端
经济日报客户端
中国网客户端
新华社客户端
种子视频
小年糕小程序
今日头条极速版小视频
好看视频
优酷视频
爱奇艺视频
bilibili视频
乐视视频
viki国外视频
各大站点视频分类榜单
新榜微信公众号
快手视频
聚合站点:
豆瓣web站点(ip)
知乎web站点(登陆)
微博web站点
前端js参数加密获取数据:
已破解的js加密参数站点:
新榜——
https://www.newrank.cn/public/info/list.html?period=day&type=data
西瓜视频——
https://www.ixigua.com/i6704835783611646475/
人民日报——
https://wap.peopleapp.com/news/