一, 爬虫的过程
1, 确定所指定需求
2. 根据需求去寻找网站
3, 网站数据获取到本地urllib, requests
4, 利用例如
定位数据, 正则,xpath,css, json 等技术手段与工具进行爬取。
5, 进行存储, 最常见的就是mysql, redis,两大数据库,还有保存到本地文件当中。
下面就是一个最简单的爬虫python代码
from urllib import request
# 1.url
url = 'http://www.baidu.com'
# 2.接口, response = openurl(url)
req = request.Request(url)
#response = request.urlopen(url)
response = request.urlopen(req)
html_byte = response.read()
# 3.存储response
with open('baidu.html', 'wb') as f:
f.write(html_byte)