使用简数采集今日头条新闻(自媒体文章采集),非常简单,只需输入:头条号ID或者新闻分类ID或者关键词。操作步骤如下:
1. 创建今日头条采集任务:
新建今日头条采集任务有两个入口:
- 在控制台左侧 “采集任务管理” 列表中,点击 “采集今日头条”;
- 在创建任务栏目处,点击 “+今日头条”;
![06ce753574271a529b243387d458b85b.png](https://img-blog.csdnimg.cn/img_convert/06ce753574271a529b243387d458b85b.png)
2. 今日头条采集任务配置:
- 填写任务名 、选择采集方式(按头条号ID、新闻分类ID或者关键词)、输入对应值和采集页数,保存,即可启动抓取。还可以同时使用多个ID或关键词,多个用逗号,分隔即可。(是半角逗号);
- ‘数据处理(可选)’ 处可做一些简单数据处理,删除图片或链接,添加版权说明等;
- 今日头条采集的原始图片是无法正常显示的(防盗链),如需图片,请在“图片下载配置”中,选择暂存简数或阿里云OSS或七牛存储;
![a85dea48127670e2dd985e5e3387d630.png](https://img-blog.csdnimg.cn/img_convert/a85dea48127670e2dd985e5e3387d630.png)
3. 采集结果:
默认采集字段:
今日头条号名称(x_name),头条号ID(x_id),标题(title),正文(content),发布日期(pubData),作者(author),标签(tag),描述(description,可使用正文截取)和关键字(keywords);
![6a37a6b1d52a6830b04e5637685e1182.png](https://img-blog.csdnimg.cn/img_convert/6a37a6b1d52a6830b04e5637685e1182.png)
附录:(如何获取头条号ID和新闻分类ID)
I、如何获取头条号ID
进入头条号主页,查看url地址 user/ 后面的数字;
下图例子,环球网对应的头条号ID为 5954781019;
![3653763a1744ebcd74009683e5f580bf.png](https://img-blog.csdnimg.cn/img_convert/3653763a1744ebcd74009683e5f580bf.png)
如果点进去的网址没显示头条号,请点击下作者的头像或者名字,就会跳转到有头条号的网址了。
![c79bd52196d5e69631ecb017c98839fb.png](https://img-blog.csdnimg.cn/img_convert/c79bd52196d5e69631ecb017c98839fb.png)
II、如何获取新闻分类ID
进入今日头条新闻主页,点击左侧任意一个分类栏目,查看url地址;
下图例子,科技分类其对应的ID为 news_tech;
![db5d611421f27d85b7fb7dbbc8669eca.png](https://img-blog.csdnimg.cn/img_convert/db5d611421f27d85b7fb7dbbc8669eca.png)