爬虫
zjhn126
学习和研究大数据、人工智能和区块链方向
展开
-
【爬虫】一、爬虫的基本原理
一、爬虫是干嘛的 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面概要介绍一下。 二、爬虫步骤 1、 获取网页 爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码。源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息了。 前面讲了请求和响应的概念,向网站的服务器发送一个请求,返回的响应体便是网页源代码。所以,最关键的部分...原创 2019-03-19 15:47:38 · 748 阅读 · 0 评论 -
【爬虫学习笔记】用Python抓取指定页面
我使用的编辑器是Idle, 安装好Python3后这个编辑器也安装好了, 小巧轻便, 按一个F5就能运行并显示结果. 代码如下: 1 2 3 4 5 6 7 #encoding:UTF-8 import urllib.request url = "http://www.baidu.co...转载 2019-03-20 08:53:42 · 440 阅读 · 0 评论 -
【爬虫学习】Scrapy初步涉猎
用scrapy 完成下列任务: 创建一个Scrapy项目 定义提取的Item 编写爬取网站的spider并提取Item 编写Item Pipeline来存储提取到的Item(即数据) Scrapy由Python编写。如果您刚接触并且好奇这门语言的特性以及Scrapy的详情, 对于已经熟悉其他语言并且想快速学习Python的编程老手, 我们推荐Learn Python The...转载 2019-03-21 08:48:19 · 187 阅读 · 0 评论 -
【爬虫学习笔记】scrapy 工具命令
Scrapy tool 针对不同的目的提供了多个命令,每个命令支持不同的参数和选项。 一、默认的Scrapy项目结构 在开始对命令行工具以及子命令的探索前,让我们首先了解一下Scrapy的项目的目录结构。 虽然可以被修改,但所有的Scrapy项目默认有类似于下边的文件结构: scrapy.cfg myproject/ __init__.py items.py pi...原创 2019-03-22 09:08:46 · 212 阅读 · 0 评论