初见爬虫和基本准备合集

1.什么是爬虫?
这里是来自维基百科的定义: 网络爬虫也可称作网络蜘蛛。
维基百科:网络爬虫始于一张被称作种子的统一资源地址(URL)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张“待访列表”,即所谓爬行疆域。此疆域上的URL将会被按照一套策略循环来访问。如果爬虫在执行的过程中复制归档和保存网站上的信息,这些文件通常储存,使他们可以较容易的被查看。阅读和浏览他们存储的网站上并即时更新的信息,这些被存储的网页又被称为“快照”。(例子如图)
在这里插入图片描述

(百度快照: 如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮您解决问题。每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,您可以通过“快照”快速浏览页面内容。 不过,百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容,会无法显示。)
个人理解:
使用代码模拟用户向服务器发送请求,获取数据,同时根据这一网页上的链接继续爬取到相关网页,获取目标数据的过程。

2.爬虫工作原理:
(1)确认爬取目标的URL地址
(2)python代码发送网络请求获取获取源数据
(3)解析获取到的数据
(4)数据持久化

3.抓取的内容
(1)HTML,JSON文本形式
(2)图片,视频,音频(注意二进制形式文件存储)
(3)你喜欢的一切吧

4.开始准备语言(看懂即可):
HTML: (维基百科)超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。(非编程语言)(是网页的主干部分)
CSS: (维基百科)层叠样式表(英语:Cascading Style Sheets,简写CSS),又称串样式列表、级联样式表、串接样式表、阶层式样式表,一种用来为结构化文档(如HTML文档或XML应用)添加样式(字体、间距和颜色等)的计算机语言。(起装饰作用)
JS: JavaScript,通常缩写为JS,是一种高级的,解释执行的编程语言。(负责完成用户数据交互)

5.编译语言和工具(会写会用会进阶):
(1)python
(2)工具:pycharm,anaconda,notepad+等等吧,个人使用pycharm中~

6.各种爬虫库:
urllab,
requests,

7.数据解析:
正则表达式
Xpath
bs4
html
pyquery
selenium(主要用于解析JS的渲染问题)

8.数据存储工具:
MongoDB
redis
mySQL

9.爬虫框架:
pyspider(轻量级)
Scrapy(主流)
。。。

补充:10.AJAX: 是异步JavaScript + XML的缩写。AJAX使用现有标准来更新网页的各个部分而不加载整个页面。AJAX的一个常见用法是加载JSON数据并在客户端呈现为HTML。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值