python之前有urllib和urllib2,在我接触到时已经合并,所以暂时不清楚之间的差别。现在只有urllib
我暂时了解到的,爬虫的基本逻辑:
1、通过url读取到网站网页
2、将网站的文本数据读取
3、通过正则表达寻找数据
4、保存需要的数据
5、数据处理,这里不是爬虫的内容
所以爬虫入门就4个步骤:
1、通过url打开网站
from urllib import request
url = "www.baidu.com"
url_open = request.urlopen(url)
2、将网站数据读取
url_text = url_open.read()
url_text = url_text.decode("gbk") #如果有需要,将编码改变
3、用正则表达式获取数据
import re
"""
正则表达式太高深,我没学过,只知道.*?
aaa表示正则需要寻找内容的前半部分,bbb表示后边需要匹配的内容
(.*?)是要获取的数据部分
"""
reg = r'aaaaaa(.*?)bbbbbb'
'''re.S是表示同时获取换行符'''
context = re.findall(reg, url_text, re.S)
4、存储数据
存储数据有两种方式,一个是往数据库存&#