爬虫的基础知识

4 篇文章 0 订阅
1 篇文章 0 订阅

要学起爬虫了,这次学习不是光看文档,我在网易云课堂上找到了课程,是一位台湾的网络公司老板开的课,跟着老师学,速度和效率都会提高。

关键词:非结构化数据

要做研究、做调研,你需要数据,但这些数据大多时候不在本地。老师说90%的数据没有很好地存储着,而是离散地分布在广大的互联网上。你的数据库中的,或者说excel文件里的整齐的数据叫做结构化数据,而网上离散分布的数据就称为非结构化数据。

爬虫的基本过程

我们需要大量数据在支持工作,所以需要到互联网上去搜寻,我们把网上大量的非结构化数据比喻为“原材料”,原材料经过爬虫程序处理,得到了结构化数据,存储在数据库中,方便以后的研究应用,如图所示:

爬虫基本过程

爬虫程序处理包括三个步骤:ETL. E 表示Extract,提取,T是Transform变形的意思,L就是Load存储。

爬虫不是新技术,很久以前就有,搜索引擎用的就是这个技术,这几年爬虫简直火爆,因为我们迎来了大数据时代,对数据的需求飞速发展,所以爬虫这样的技术就重新获得了人们的青睐,这是一种有效的自动化搜集大量数据的方法。

说一些关于http的东西

我最近看了 HTTP: The Definitive Guide 的前三章,感触很深,对网络交互的基本流程还算有了一定认识,现在学习爬虫刚好能用上。

浏览网页其实浏览器帮你做了很多工作,其中一个非常重要的就是与服务器交互。浏览器把http请求发给服务器,然后服务器发回回复信息,通常是一个带头信息的html文件。我们爬虫要做的,就是剖析这个html文件里面的数据,然后将其存储到数据库中。

关于浏览器与服务器的交互,你可以用谷歌浏览器的开发者工具监控到,打开network选项卡,然后你再打开任意网站,浏览器和服务器的各种文件交互你就都能看到。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值