Python爬虫第一天

1.安装BeautifulSoup库(第三方库,简化正则,目前还未体会到其应用优势~~) 

 

 2.Test1:获取url网页信息

import urllib.request
response = urllib.request.urlopen('http://python.org/')
result = response.read().decode('utf-8')
print(result)

3.Test2:提取url网页中包含的超级链接/网址

import urllib.request
import re  #re库用于正则表达式

response = urllib.request.urlopen('http://www.jd.com')
text = response.read().decode('UTF-8')
print(text)
linkre = re.compile('href=\"(.+?)\"')  #编辑正则模型
for x in linkre.findall(text):
    if 'http' in x:
        print('新增地址-->'+x)

4.正则

# pattern = re.compile('正则') 匹配所有
# pettern = re.match('正则') 开始匹配,匹配一次
# pettern = re.research('正则') 中间匹配,匹配一次

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值