![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
墨飏韶年
leetcode:https://leetcode-cn.com/problemset/all/
展开
-
一、安装Scrapy
下列的安装步骤假定您已经安装好下列程序:Python 2.7 Python Package: pip and setuptools. 现在 pip 依赖 setuptools ,如果未安装,则会自动安装 setuptools 。 lxml. 大多数Linux发行版自带了lxml。如果缺失,请查看http://lxml.de/installation.html OpenSSL. 除了Win...原创 2018-07-30 10:45:33 · 190 阅读 · 0 评论 -
Scrapy入门教程
在本篇教程中,我们假定您已经安装好Scrapy。 如若不然,请参考 安装指南 接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。本篇教程中将带您完成下列任务:创建一个Scrapy项目 定义提取的Item 编写爬取网站的 spider 并提取 Item 编写 Item Pipeline 来存储提取到的Item(即数据)Scrapy由...原创 2018-07-30 11:12:55 · 170 阅读 · 0 评论 -
二、scrapy例子
https://github.com/scrapy/dirbot原创 2018-07-30 11:28:22 · 379 阅读 · 0 评论 -
三、Item
Items爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供 Item 类来满足这样的需求。Item 对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。声明ItemItem使用简单的class定义语法以及 Field 对象来声明。例如:import scrap...原创 2018-07-30 11:47:33 · 342 阅读 · 0 评论 -
selenium 安装与 chromedriver安装
直接使用pip安装pip install selenium用 Chrome 浏览器来测试from selenium import webdriverbrowser = webdriver.Chrome()browser.get('http://www.baidu.com/')运行这段代码,会自动打开浏览器,然后访问百度。如果程序执行错误,浏览器没有打开,那么应该是没有装...原创 2019-02-27 20:01:47 · 175 阅读 · 0 评论 -
Phantomjs下载与安装
PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。下载地址http://phantomjs.org/download.html下载后解压,解压完成后进入bin文件夹,双击phantomjs.exe出现以下图片说明安装成功了。...原创 2019-02-27 20:17:21 · 664 阅读 · 0 评论