很多网站现在都是按照关键词进行采集的,定向采集指定的内容,淘小白使用火车头采集,通过搜索词采集也采集过很多站点,今天来给大家总结一下!
目录:
1、搜词采集头条文章
2、搜词采集悟空问答
3、搜词采集百度知道
4、搜词采集360问答
5、搜词采集搜狗微信
6、搜词采集csdn
7、搜词采集简书
8、搜词采集搜狐
正文:
1、搜词采集头条文章
搜词采集头条文章通过头条是搜索进入就可以采集,这个火车头的规则比较稳定,没啥可说的,淘小白出的规则,可能也被别人转发过,稳定性还是不错的。
2、搜词采集悟空问答
搜词采集悟空问答,这个入口换过几次,现在这个入口比较稳定,亲测200万以上的数据,麻烦点就是关键词需要urlencode编码一下
3、搜词采集百度知道
搜词采集百度知道,不稳定,采一会就直接没有数据出来,测试放慢采集也是这种情况,比较郁闷。
4、搜词采集360问答
360问答的重复数据有些多,也有反爬,速度放慢一些可以采集,快了会直接出验证码。
5、搜词采集搜狗微信
搜词采集搜狗微信的数据,也采集过一段时间,不过也是不稳定的,搜狗的验证码也是比较频繁的。但是数据很多都出自微信,数据质量还是很好的。
6、搜词采集csdn
搜词采集csdn也是可以的,测试过一次,不过csdn的很多都带代码块,采集完之后,还得注意一下代码块的格式。
7、搜词采集简书
搜词采集简书也采集过,简书搜索出来的数据不多,相关度也不是很好,可以按照发布日期采集最新的。
8、搜词采集搜狐
搜词采集搜狐也可以,但是数据不准确,搜狐按照作者采集的可以,但是因为搜狐的PC页面图片都是转码加密过的,所以,建议走一下移动端。
关于搜狐图片加密的问题,这个问题已经解决了,目前运行是没有问题的,后面会单独写一篇文章来说下这个搜狐图片的问题。
搜关键词采集数据目前还是比较流行的,对于一些百科站,使用搜词采集是比较好的,如果是大的行业站,可以通过一些大站点的分类进行采集。
来源:淘金网 (i-uni.cn)