爬虫实战:制作简单的页面采集器

以百度为例制作简单的页面采集器

首先尝试利用百度搜做引擎搜索任意信息:

在这里插入图片描述url如下:
在这里插入图片描述观察可知 我们需要的URL如下:
https://www.baidu.com/s?wd=123

首先利用python脚本发送请求:

import requests

url = 'https://www.baidu.com/s'
kw = input('please input your keywords:')
param = {
    'wd':kw
}
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url=url,params=param,headers=headers)
response.encoding = 'utf-8'
print(response.text)

在这里插入图片描述
返回结果如下:
在这里插入图片描述
将爬取下来的内容保存到相应的html文件中:
完整代码:

import requests

url = 'https://www.baidu.com/s?'
kw = input('input your keyword:')
param = {
    'wd':kw
}
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url=url,params=param,headers=headers)
response.encoding = 'utf-8'
page_text = response.text
filename = kw+'.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print('保存成功!')

在这里插入图片描述在响应文件夹中找到该html文件
在这里插入图片描述用chrome打开如下:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬虫采集器 --------------------------------------- 版本:1.0 说明: 虽然软件名称叫爬虫采集器,但是只是WPX.NEWS工具集中的一个功能点,该WPX.NEWS工具集中现在有两个功能点: 1、密码管理器 2、爬虫采集器 运行环境支撑:JDK1.8+ 运行命令:java -jar monitor.jar ============================================= 爬虫采集器的代理服务器自动获取配置说明: ------------------------------------------ 使用爬虫采集器建议使用代理爬取(虽然速度很慢,也会出现无法爬取数据,但是胜在安全^_^),代理服务器的爬取配置如下(配置>代理服务器配置): 1、点击代理服务器自动获取,进入配置界面 2、配置界面中: (1)采集项目名称自已填 (2)代理服务器采集目标,可以填:https://ip.jiangxianli.com/?page=1 (填多个,记得换行,一行一个地址) (3)代理服务类型,可以填:table.layui-table tbody tr td:eq(3) (4)代理服务器IP地址,可以填:table.layui-table tbody tr td:eq(0) (5)代理服务器端口,可以填:table.layui-table tbody tr td:eq(1) (6)代理服务器用户名,没有可以不填 (7)代理服务器密码,没有可以不填 (8)代理服务器位置,可以填:table.layui-table tbody tr td:eq(4) 3、点击添加代理服务器采集配置项,选中配置项,点启动,等待采集代理服务器 4、采集完成后,可以选择一个代理服务器,进行代理测试,测试速度,还有能不能用 5、选好了可用速度也可以的代理服务器后,保存下来,记得:选中默认使用该代理。不打勾用不了代理服务器。 ============================================== 爬虫采集器信息采集配置(添加采集项目)说明: ----------------------------------------- 1、采集项目称自已填 2、URL,可以填:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1 (填多个,记得换行,一行一个地址) 3、采集范围,默认即可 4、采集链接规则,可以填:div.d_list_txt ul li span.c_tit a 5、分页链接规则,只有URL配置填写一个地址的时候起作用,目的是寻找多个采集链接地址。 6、子页面标题规则,可以填:h1.main-title 7、子页面内容规则,可以填:div.article 8、子页面分页链接规则,这是为了处理子页面内容存在多个分页才能显示完整内容,提供的配置项 点击保存,启动采集,可以看到数据了 ~~~~~~~~~~~~ ---------------------------------------------------

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值