爬虫基础

1.环境

    a. win 

    b. python3   官网下载,注意64位,安装时要添加环境变量

    c. notepad++


2. 添加beautsoup

    官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

   a.  将pip添加入环境变量  .../python/Script

   b.  cmd运行pip install bs4


3.  写代码啦~

    import urllib.request

    from bs4 import BeautifulSoup

    test_url = '网站http'


    test_html = urllib.request.urlopen(test_url)

    test_soup = BeautifulSoup(test_html,"html.parser")

    print(test_soup.prettify())

4. 解释
    对对对没错,爬一个网站只需要这么几句代码。
    1. 导入 urlib.request模块
          在python3以后的版本中,urlib2这个模块已经不单独存在(也就是说当年你import urllib2时,系统提示没有这个模块),urllib2被合并到了urllib中,叫做urllib.request 和urllib.error。至此,urllib整个模块分为urllib.request, urllib.parse, urllib.error。
    2. 导入beautfulsoup模块
    3.  定义url
    4. urllib.request.urlopen()
       定义:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
       打开网址URL,这可以是一个字符串或一个 Request对象。
       关于urllib,urllib2一个小可达鸭的知识积累:http://blog.csdn.net/Jurbo/article/details/52313636

    5. BeautfulSoup

        python标准库            BeautifulSoup(markup, "heml.parser")    执行速度适中,文档容错能力强    python3之前的版本中文档容错差

        LxmlHTML解析器     BeautifulSoup(markup, "lxml")       速度快,文档容错能力强    需要安装c语言库

        LxmlXML解析器        BeaufifulSoup(markup, [ "lxml", "xml"])   BeautifulSoup(markup, "xml")  速度快,唯一支持XML的解释器  需要c语言库

        html5lib                     BeautifulSoup(markup, "html5lib")    最好的容错,以浏览器的方式解析文档,胜场html5格式的文档   速度慢,不依赖外部扩展

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值