Python爬虫入门

最新学习Python,以爬虫作为练手的工具来开发。

Python提供了urllib用于抓取网页的内容,十分的简单。再配合正则表达式或者HTML解析包,可以十分容易的实现爬虫,但是若开发大数据的则需要到分布式的爬虫,此处暂且不提。

首先提供一个简单的抓取单页内容的示例程序,并演示正则表达式的使用方法;示例如下:

#encoding:UTF-8
import urllib.request
import re
def fetch(url):
    fb = urllib.request.urlopen(url)
    data = fb.read()
    data = data.decode('UTF-8')
   # print(data)
    titlelist = []
    titlelist = re.compile(r'<a  href="/([A-Za-z]{3,15})" οnclick="pageTracker._trackPageview\(\'dp_citylist_new_pinyin_(strongcity)_(\d+)_(\d+)\'\);"><strong>(.*?)</strong></a><span class="sep">',re.DOTALL).findall(data)
    titlelist2 = []
    titlelist2 = re.compile(r'<a  href="/([A-Za-z]{3,15})"  οnclick="pageTracker._trackPageview\(\'dp_citylist_new_pinyin_(lightcity)_(\d+)_(\d+)\'\);">(.*?)</a><span class="sep">',re.DOTALL).findall(data)
   # titlelist.append(titlelist2)
    print('国内较大城市以及国外城市(%d个):'%len(titlelist))
    for i in range(0,len(titlelist)):
        print(titlelist[i],'\n')
    print('国内较小城市(%d个):'%len(titlelist2))
    for i in range(0,len(titlelist2)):
        print(titlelist2[i],'\n')

if __name__ ==  "__main__" :
    url = r'http://www.dianping.com'
    fetch(url)


本例用美团网的首页作为目标程序,抓取其中所有的城市列表,示例中展示了正则包re中complie以及findall的使用方法,以及捕获组的使用,对于捕获组您可以自己尝试下正则字符串中去掉“()”和加上“()”得到的内容的不同。

如有其他问题请发留言,不胜感激您的阅读!


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值