python urllib 静态网页的爬取

python之前有urllib和urllib2,在我接触到时已经合并,所以暂时不清楚之间的差别。现在只有urllib

我暂时了解到的,爬虫的基本逻辑:

1、通过url读取到网站网页

2、将网站的文本数据读取

3、通过正则表达寻找数据

4、保存需要的数据

5、数据处理,这里不是爬虫的内容

所以爬虫入门就4个步骤:

1、通过url打开网站

from urllib import request
url = "www.baidu.com"
url_open = request.urlopen(url)

2、将网站数据读取

url_text = url_open.read()
url_text = url_text.decode("gbk") #如果有需要,将编码改变

3、用正则表达式获取数据

import re
"""
正则表达式太高深,我没学过,只知道.*?
aaa表示正则需要寻找内容的前半部分,bbb表示后边需要匹配的内容
(.*?)是要获取的数据部分
"""
reg = r'aaaaaa(.*?)bbbbbb' 
'''re.S是表示同时获取换行符'''
context = re.findall(reg, url_text, re.S)

4、存储数据

存储数据有两种方式,一个是往数据库存&#

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值