scrapy-爬虫
累兰羽
这个作者很懒,什么都没留下…
展开
-
创建spdier的模板
**今天我们来修改spdier中的模板**当我们新建scrapy项目的时候scrapy stratproject test 可以cd test到项目中,执行命令scrapy genspider baidu baidu.com 这么我们就创建了一个spider爬虫了,但是随着我们爬虫的深入,scrapy给我们提供的默认模板已经满足不了我们的需求的时,我们可以自定义我我们的需求。 执行scrapy原创 2017-05-25 21:56:25 · 461 阅读 · 0 评论 -
scrapy安装和简单使用
本文讲诉的基于一个python3的虚拟环境下安装和使用scrapy虚拟环境下安装scrapy安装python3, 也可以同时安装python2,一起使用创建一个虚拟环境叫python3text ,mkvirtualenv –python=C:\Users\Administrator\AppData\Local\Programs\Python\Python35\python.exe python3原创 2017-05-16 17:41:16 · 371 阅读 · 0 评论 -
ubuntu安装scrapy失败 gcc
1.在ubuntu下安装scrapy出现错误error: command 'x86_64-linux-gnu-gcc' failed with exit status 1 错误如下所示: 解决方法:1.首先更新下你的软件源,sudo apt-get update2.然后在终端执行~$ sudo apt-get install python-dev 得到如下图所示:3....原创 2017-05-21 21:02:16 · 499 阅读 · 0 评论 -
自定义user-agent的Middlware
user-agent可以作为反爬虫中的一部分: 对我们的爬虫进行自定义RandomUserAgentMiddlware: 首先我们需要安装一个fake-useragent库:pip install fake-useragent fake-useragent的详细使用参考github上面的官网教程 然后在setting.py文件同级的目录下面创建middlewares.py文件,有的话就不用创原创 2017-06-02 00:27:36 · 1132 阅读 · 0 评论 -
python+Selenium2+chrome构建浏览器模拟环境
按命令执行:第一步:sudo apt-get install libxss1 libappindicator1 libindicator7wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.debsudo dpkg -i google-chrome*.debsudo apt-get i转载 2017-06-06 17:13:35 · 594 阅读 · 0 评论