Python基础学习-爬虫入门知识

转载 2015年11月17日 22:41:28

*----------------------------------------------------------------编程届菜鸟-------------------------------------------------------*

      学习语言的最好办法,就是用起来~~~

      最近开始学Python,决定学点爬虫的,动动手学得快!

Python爬虫入门(2):爬虫基础了解

1.什么是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2.浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

3.URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。

4. 环境的配置

学习Python,当然少不了环境的配置,最初我用的是Notepad++,不过发现它的提示功能实在是太弱了,于是,在Windows下我用了 PyCharm,在Linux下我用了Eclipse for Python,另外还有几款比较优秀的IDE,大家可以参考这篇文章 学习Python推荐的IDE 。好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE

下一节,我们就正式步入 Python 爬虫学习的殿堂了,小伙伴准备好了嘛?



相关文章推荐

Python基础知识——爬虫入门

爬虫,即网络爬虫。打个形象的比方:一只蜘蛛在蜘蛛网上爬,可以以某种方式从网上的某个地方找到自己想要的东西。 那么和网页相联系起来有什么关系呢? 首先我们先简单介绍一下网页的基本概念。所谓网页,也就...

Python零基础入门十九之爬虫基础知识

这篇博客主要是讲爬虫的一点基础知识,为后面的爬虫实战做准备。 Python访问互联网主要是使用urllib包中的几个模块,我们可以打开Python的文档来查看一下这个urllib包。我们主要是使用u...

python3 [入门基础实战] 爬虫入门之xpath的学习

Xpath Xpath全程为xml路径语言,用来确定xml文档中某部分位置的语言。 使用Xpath需要安装lxml库,lxml为Python的第三方库,安装方法可以直接下载库文件手动添加到pyth...

python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)

请转移新博客地址: http://blog.csdn.net/xudailong_blog 老实说:懵逼啊 这次爬取的是智联招聘上的求职数据,虽然没有仔细正确核对一下数据是否具有重复性,随机...

python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)

老实说:懵逼啊 这次爬取的是智联招聘上的求职数据,虽然没有仔细正确核对一下数据是否具有重复性,随机抽查了些,数据大部分还是能对上来的,这次爬取的智联招聘上的数据90页,每页60条,主要抓取的是an...

【Python爬虫】入门知识

爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历。网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打算讲...

python2爬虫的入门知识

这篇博客是作者入门python爬虫的笔记,仅供参考,如有错误请指正。 1.爬静态页面(百度首页 http://www.baidu.com),IDE为pycharm # -*- coding: ut...

Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识

网站站点的背景调研1. 检查 robots.txt网站都会定义robots.txt 文件,这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制。当然了,这个限制仅仅只是一个建议,你可以遵守,也可以...

Python 基础知识快速入门学习

Python 基础知识快速入门学习

python爬虫基础知识

爬虫基本知识 基本流程:网站-爬虫程序-本地存储(让爬虫程序伪装成一个浏览器去请求,而不是一个程序在跑) 日常操作中打开网页流程: 输入网站URL,按回车键-浏览器发送请求至远程服务器-远程服务器返...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)