scrapy 搜索关键字_怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果

针对常用的网站采集需求,集搜客网络爬虫用一系列快捷采集工具满足这些需求,这样,用户就不用花时间学习网络爬虫的使用方法,只需按照快捷工具的要求,输入要采集的网址并设置要采集的网页数量,把爬虫群窗口启动起来,爬虫就能自动运行,最后把采集到的结果打包下载出来excel文件即可。

下面,以搜狐新闻搜索列表快捷采集工具为例,介绍怎样根据关键词,利用这些新闻类的快捷采集工具,把需要的新闻搜索到。

1,进入快捷采集界面

如下图,是从集搜客首页的顶部菜单进入的

3dfd6aaf4ca6877babed5e8cbfa478f4.png

2,选择合适的快捷采集工具

集搜客发布了一系列常用的采集工具,而且会根据用户提出的需求,把更多采集工具分享给大家使用。那么用户首先要在一个快捷采集工具列表中找到自己需要的。这个查找过程是分成3级筛选的:

8a1b7f36fe6e8bbadb921738e8944a80.png

第一级:筛选类别,我们选择了“新闻”

第二级:筛选网站,我们从新闻类网站中选出“搜狐新闻”

第三级:筛选页面,我们从搜狐新闻网站中选出来“搜狐新闻搜索列表”,因为我们想根据关键词搜索到相关的新闻

选择了这三级以后,可以观察到快捷采集界面刷新了,出现输入地址的界面,需要用户把要采集的目标网址输入进来,告诉网络爬虫去爬这个网页

2,怎样生成目标网址

生成目标网址的方法有两种,根据关键字数量多少进行选择。

2.1,手工逐条生成目标网址

如果只需要搜索几个关键字,那么手工找到搜索网址就行了,方法如下:

2.1.1,点击样本网址

每个快捷采集工具都有样本网址,点击即可打开这个网页,在这个网页上换上自己需要的关键词。点击如线图红框中的网址

80e067564f18123128dd0b90c299f6e5.png

2.1.2,替换关键词

如下图,在搜索结果列表网页中,把关键词替换成“00后”,可观察到地址输入栏的网址变化了,把这个网址拷贝出来,你就得到了要爬的目标网址。请看下面两图,对比替换关键词前和替换后的网页,替换后红框中的网址就是目标网址。

e0105eeab903857400c4d673978cf6e9.png

33639cd2ed9fdbecdab21a184226bcc0.png

2.2,批量生成目标网址

如果关键词很多,像2.1那样一条条生成太慢了。其实这些网址都有规律,关键词是包含在网址中的,只需把网址中的关键词替换掉就行。那么在Excel中做这个事情是最方便的。

20f7b55a8669bec4e100bf0b25f7ba5b.png

如上图,红框的C列是要替换的关键词,把每个关键词占一行往下存。注意,这个案例除了关键词以外,还有前面一部分,那是表示在搜狗搜索中只搜索搜狐网站的内容。

而B列和C列都是固定的内容,为每一行拷贝相同的内容即可。

最后,在A列用公式 =CONCAT(B1,C1,D1),把3列串接起来,而且把这个串接公式复制给所有行,那么就得到了所有关键字的目标网址。

3,添加网址启动采集

如下图,左箭头指向的输入框可以添加单条网址,右箭头指向的按钮可以添加多条网址,可以把excel中生成的网址全部拷贝过来。

中间箭头指向的是需要选择爬多少页,也就是为每个关键词爬多少页,可以选择全部,或者几页。

4,打包和下载数据

前3步完成后,会提示运行两个爬虫群窗口,这两个窗口一个用来爬数据,一个用来打包数据,都不要关掉。请注意:运行的时候不要缩小他们,要尽量大,如果你还想并行做其他事情,这些窗口上面可以覆盖别的窗口,但是不能缩小他们。

运行一段时间,这些窗口就不再显示网页内容了,而是提示说采集完成了,这个时候,就可以到会员中心的快捷采集界面上去打包和下载数据了。

请注意:爬虫采集完成以后,还需要一点时间转换成excel,如果没有转换完就去打包,会提示打包数量是0或者很少,你可以多等几分钟。

打包就是把采集到的数据压缩成zip文件供你下载,而下载就是下载这个zip文件。每采集完一个任务,只需打包一次,而下载可以下载很多次。

下图是打包页面

d036aa5f00bbc75ca019c6710a299944.png

在快捷采集的数据管理那里,可以看到任务列表,每个任务都有打包按钮。另外,点击一个任务,可以看到采集到的结果统计和一部分作为样本的数据。

下图是下载页面:

0e372ec8a08a41e9fe8d4925a15f28d6.png

5,哪里去找下载下来的数据

下载下来的数据放在“下载”文件夹,请到那里去找

96ed74533e4458793cfbacbb0f0ace7a.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值