大家好,我是淘小白~今天来整理一下百度知道聚合采集插件的的说明文档!
1、应用软件
火车头采集器
2、插件类型
Python插件
3、插件逻辑说明
1、百度知道搜索关键词
提取前2页的百度知道url,默认两页,可以自定义
2、提取百度知道列表的标题,做相关度的匹配,匹配标题与搜索词相关的文章
使用腾讯ai做相关度匹配,匹配搜索词与标题相关度最高的4条(默认),进行标题和正文内容的提取,保证字数大于1000字,如果4条数据正文内容小于1000字,自动补后面的数据进来,直至正文大于1000字
3、搜索词+最相关知道标题,作为文章标题
4、聚合样式:
样式:
1、百度知道1小标题
百度知道1正文
2、百度知道2小标题
百度知道2正文
3、百度知道3小标题
百度知道3正文
4、百度知道4小标题
百度知道4正文
5、内容做清洗,清洗数字,违法广告法的关键字
6、文章正文配图(搜狗图库)
4、代理ip
百度知道有反爬,所以必须得用代理ip,如果没有代理基本是没法用的。
5、 相关度匹配问题
脚本是筛选的列表的前两页的数据,通过提取前两页的数据,然后与搜索词做相关度匹配,这里会用到腾讯ai的接口,免费白票的。所以,还需要注册一个腾讯云的账号,提取两个密钥。
❤ TXB2196
6、数据量测试
数据量一天大约1.3万篇聚合文章,有些朋友需求量比较大,不太适合,数据量能出多少,还会受隧道代理并发限制,并发越大出的数据越多,并发少的话,出的数据就少一些。
我这边也在使用这个,我自己一般会跑1w+的数据,然后慢慢发布,因为还有其他的脚本插件生成数据,本人用的数据量并不是很大。
有些客户数据量一天几十万,这个插件实现不了,比较费劲~~(#^.^#)
7、隧道代理设置问题
关于隧道代理设置的教程,我这边已经整理过了,没有在csdn发布,后面如果用得到,可以联系我,我把整理好的教程发送给你。
8、关于安装和调试
淘小白这边都是默认远程协助调试安装一台电脑,多余电脑配置调试,需要增加一些费用,望悉知~
9、关于更新
脚本是包更新的,脚本升级更新会在朋友圈发通知~❤ TXB2196