基于
Python
爬虫技术实现
望江龙
;
王晓红
【期刊名称】
《
《电脑编程技巧与维护》
》
【年
(
卷
),
期】
2019(000)009
【摘要】
随着科技时代的飞快发展
,
使用技术和创新来搜索数据
,
是大数据研究的
方向
.
基于
Python
的网络爬虫提取数据是目前使用频率较高的一种技术方
式
,Python
语言简洁、开发速度快、可以跨平台的特点
,
通过第三方
request
库
对网页进行获取返回值的内容
.
通过
Python
3
种筛选方式对网页中的数据进行
快速的匹配
.
使用正则、
XPath
和
Beautiful
Soup
这
3
种筛选技术对某个网页
中的图片和文字进行提取
.
这样不仅能很精准地找到网页中所需数据
,
而且能自动
快速地将这些数据永久地保存下来
,
大大减少寻找数据的时间
.
当爬虫技术的不断
优化
,
功能也越来越强
,
数据盗取情况日益严重
,
很多网站采用了反爬虫技术
,
因此
正常的数据搜集需要一定的反反爬虫技术手段
.
【总页数】
4
页
(18-20,41)
【关键词】
Python
语言
;
第三方库
;
反反爬虫
;
网络爬虫技术
;
数据提取
;
数据处
理
【作者】
望江龙
;
王晓红
【作者单位】
武汉商学院信息工程学院
武汉
430056
【正文语种】
中文
【中图分类】
【相关文献】
1.
基于
Python
的网络爬虫与反爬虫技术研究
[J],
李培