火车头采集器百度知道聚合采集插件说明文档!

大家好,我是淘小白~今天来整理一下百度知道聚合采集插件的的说明文档!

1、应用软件

火车头采集器

2、插件类型

Python插件

3、插件逻辑说明

1、百度知道搜索关键词

提取前2页的百度知道url,默认两页,可以自定义

2、提取百度知道列表的标题,做相关度的匹配,匹配标题与搜索词相关的文章

使用腾讯ai做相关度匹配,匹配搜索词与标题相关度最高的4条(默认),进行标题和正文内容的提取,保证字数大于1000字,如果4条数据正文内容小于1000字,自动补后面的数据进来,直至正文大于1000字

3、搜索词+最相关知道标题,作为文章标题

4、聚合样式:

样式:
1、百度知道1小标题
      百度知道1正文
2、百度知道2小标题
      百度知道2正文
3、百度知道3小标题
      百度知道3正文
4、百度知道4小标题
      百度知道4正文

5、内容做清洗,清洗数字,违法广告法的关键字

6、文章正文配图(搜狗图库)

4、代理ip

百度知道有反爬,所以必须得用代理ip,如果没有代理基本是没法用的。

5、  相关度匹配问题

脚本是筛选的列表的前两页的数据,通过提取前两页的数据,然后与搜索词做相关度匹配,这里会用到腾讯ai的接口,免费白票的。所以,还需要注册一个腾讯云的账号,提取两个密钥。

❤ TXB2196

6、数据量测试

数据量一天大约1.3万篇聚合文章,有些朋友需求量比较大,不太适合,数据量能出多少,还会受隧道代理并发限制,并发越大出的数据越多,并发少的话,出的数据就少一些。

我这边也在使用这个,我自己一般会跑1w+的数据,然后慢慢发布,因为还有其他的脚本插件生成数据,本人用的数据量并不是很大。

有些客户数据量一天几十万,这个插件实现不了,比较费劲~~(#^.^#)

7、隧道代理设置问题

关于隧道代理设置的教程,我这边已经整理过了,没有在csdn发布,后面如果用得到,可以联系我,我把整理好的教程发送给你。

8、关于安装和调试

淘小白这边都是默认远程协助调试安装一台电脑,多余电脑配置调试,需要增加一些费用,望悉知~

9、关于更新

脚本是包更新的,脚本升级更新会在朋友圈发通知~❤ TXB2196

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

淘小白_TXB2196

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值