网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取感兴趣的信息,抓取对于我们有价值的信息,爬虫技术是大数据和云计算的基础。
爬虫的实现可认为是模拟浏览器与服务器数据交互,伪造HTTP请求。
使用总览
网页爬取库:
1、urllib模块的urllib.request
#基本被取代
2、requests 第三方库
#中小型爬虫开发
#官网:http://www.python-requests.org/en/master/
3、Scrapy 框架
#大型爬虫开发
内容解析库:
1、BeautifulSoup库
#提取HTML和XML里的数据
#官网https://www.crummy.com/software/BeautifulSoup/bs4/doc/
2、re模块
#正则表达式,处理字符串
查看网站爬