- 博客(6)
- 收藏
- 关注
原创 网络爬虫开发实战_第2章_爬虫基础
1 HTTP基本原理 URI:统一资源标志符;URL:统一资源定位符。URL是URI的一个子集。两者没有作区分的必要。一般的网页链接均称为URL。 超文本即网页的源代码。 HTTP:超文本传输协议。HTTPS:HTTP的安全版,在HTTP中加入的SSL层。 ...
2018-08-18 17:01:07
120
原创 Python_爬虫学习_2_Scrapy常用工具命令
综述Scrapy中,工具命令分为两种,全局命令和项目命令。 全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行。全局命令fetch命令主要用来显示爬虫的爬取过程。 如果在Scrapy项目目录之外使用该命令,则会调用Scrapy默认的爬虫来进行网页的爬取;如果在Scrapy的某个项目目录内使用该命令,则会调用项目中的爬虫来进行网页的爬取。
2018-02-11 17:07:16
170
原创 Python_爬虫学习_1
相关内容均学自《精通Python网络爬虫》 Urllib库的简单调用快速爬取网页# eg 1: import urllib.request file = urllib.request.urlopen('http://www.baidu.com') data = file.read() print(data)会输出百度首页的html代码。# eg 2: file = open('C:/Users/Ad
2017-12-09 10:56:17
222
转载 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-03-30 08:56:36
224
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人