爬虫是一种通过自动化的脚本对网页进行批量获取信息的技术。Python是用来编写爬虫的一种常用语言
学习爬虫首先要有一定的python基础 其次需要学习一种爬虫框架 当然,网络分析也是需要学习的,例如HTML就比较常用 最后,一定要多多实践,才能不断巩固和完善自己的水平
网络数据的获取(爬取)
1.抓取:
三种方法:urllib内建模块,Requests第三方模块,Scrapy框架
这里简单介绍下Requests第三方模块
import requests
# y运用get函数
r = requests.get('(网址)')
r.text
浅浅解释下:
requests.get():请求获取指定URL位置的资源,对应HTTP协议的GET方法
2.解析:
简单的两种方法:BeautifulSoup库,re模块
这里简单用下re模块
import requests
re = requests.get('(网页)')
print(re.text)