Python基础学习-爬虫入门知识

转载 2015年11月17日 22:41:28

*----------------------------------------------------------------编程届菜鸟-------------------------------------------------------*

      学习语言的最好办法,就是用起来~~~

      最近开始学Python,决定学点爬虫的,动动手学得快!

Python爬虫入门(2):爬虫基础了解

1.什么是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2.浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

3.URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。

4. 环境的配置

学习Python,当然少不了环境的配置,最初我用的是Notepad++,不过发现它的提示功能实在是太弱了,于是,在Windows下我用了 PyCharm,在Linux下我用了Eclipse for Python,另外还有几款比较优秀的IDE,大家可以参考这篇文章 学习Python推荐的IDE 。好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE

下一节,我们就正式步入 Python 爬虫学习的殿堂了,小伙伴准备好了嘛?



Python实战:网络爬虫都能干什么?

@冰蓝  之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了一小部分,远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫,爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。...
  • qzc70919700
  • qzc70919700
  • 2017年06月15日 23:21
  • 6724

Python爬虫介绍

一、什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息 二、Python爬虫架构 Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、...
  • sinat_29957455
  • sinat_29957455
  • 2017年04月27日 13:13
  • 1308

Python开发简单爬虫之爬虫介绍(一)

本博客来自慕课网—Python开发简单爬虫爬虫主要场景: - 不需要登录的静态网页 - 使用Ajax异步加载的内容 - 需要用户登录才可以访问的网页以下主要介绍 不需要登录的静态网页。一、爬虫简...
  • u011026329
  • u011026329
  • 2016年10月27日 22:37
  • 2569

python 网络爬虫入门(一)———第一个python爬虫实例

最近两天学习了一下python,并自己写了一个网络爬虫的例子。 python版本: 3.5 IDE : pycharm 5.0.4 要用到的包可以用pycharm下载: File->Defau...
  • Bo_wen_
  • Bo_wen_
  • 2016年03月13日 15:58
  • 80713

学了2天的Python,自己写了个简单的爬虫,可是爬虫有什么用呢?

# -*- coding: UTF-8 -*- import requests import pandas import re import json from bs4 import Beauti...
  • wang263334857
  • wang263334857
  • 2017年12月02日 20:44
  • 300

Python 爬虫之Google翻译实现

用过一些翻译工具,发现还是Google翻译最准确,但是Google翻译现在没有免费的API,网上的一些爬虫资料也太过陈旧了,Google翻译的机制早都改了,完全无用。这里简单的提供一下实现,需要更多功...
  • yingshukun
  • yingshukun
  • 2016年12月05日 21:34
  • 15097

python爬虫实例项目大全

WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [...
  • baidu_21833433
  • baidu_21833433
  • 2017年04月21日 14:59
  • 12706

1 python爬虫-什么是爬虫

网页组成:html 骨架,css这个页面的衣服是什么颜色的,js动态执行语言 1 cookies 反爬会用到,告诉服务器前后页面其实是同一个人登陆 通用的网络爬虫框架 四种 如何编写...
  • MilkHathaway
  • MilkHathaway
  • 2018年01月30日 23:12
  • 69

[Python]网络爬虫总结

# [Python]网络爬虫总结 本文将对Python网络爬虫进行简要的总结,涵盖了我目前所使用的所有方法。 静态网页对于静态网页,就不多说了,太简单了。只要用requests库直接把html爬下...
  • stary_yan
  • stary_yan
  • 2017年08月02日 11:44
  • 322

Python3学习(34)--简单网页内容抓取(爬虫入门一)

基础讲多了也不好,懂的人看了烦躁,半懂的人看多了没耐心,我也不能打消了你们学习Python的积极性了,开始爬虫系列基础篇之前,先上一张图,给大脑充充血: 很多人,学习Pyth...
  • Appleyk
  • Appleyk
  • 2017年09月23日 12:33
  • 4004
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python基础学习-爬虫入门知识
举报原因:
原因补充:

(最多只允许输入30个字)