python
hzzyu
熟悉php,go,python爬虫,热爱编程,尊重程序
展开
-
scrapy定时执行抓取任务
在ubuntu环境下,使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行:首先编写要执行的命令脚本cron.sh#! /bin/sh ...原创 2019-03-07 14:03:13 · 639 阅读 · 0 评论 -
彻底搞懂Scrapy的中间件(三)
爬虫中间件爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response;爬虫中间件的作用对象是爬虫,更具体地来说,就是写在spiders文件夹下面的各个文件。它们的关系,在Scrapy的数据流图上可以很好地区分开来,如下图所示。其中,4、5表示下载器中间件,6、7表示爬虫中间件。爬虫中间件会在以下几种情况被调用。当...原创 2019-03-07 13:47:54 · 248 阅读 · 0 评论 -
彻底搞懂Scrapy的中间件(二)
在中间件中集成Selenium对于一些很麻烦的异步加载页面,手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium和ChromeDriver或者Selenium和PhantomJS来实现渲染网页。这是前面的章节已经讲到的内容。那么,如何把Scrapy与Selenium结合起来呢?这个时候又要用到中间件了。创建一个SeleniumMiddleware,其代码如下:f...原创 2019-03-07 13:46:04 · 241 阅读 · 0 评论 -
彻底搞懂Scrapy的中间件(一)
中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。“中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据,做一些修改再把数据传递出去。不同点在于,中间件是开发者主动加进去的组件,而中间人是被动的,一般是恶意地加进去的环节。中间件主要用来...原创 2019-03-07 13:32:48 · 418 阅读 · 0 评论 -
Python 列表生成式
什么叫列表生成式:Python内置的可生成list的表达式例如:要生成一个list[1-10],可以用range()>>> range(1,11)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]有关range()解释可以百度下,以及需留意(1, 11)只会显示1-10的数字。那如果要生成(1*1, 2*2, 3*3 ... 10*10)要如何解决...转载 2019-03-04 16:30:43 · 473 阅读 · 0 评论 -
linux 下后台运行python脚本
这两天要在服务器端一直运行一个Python脚本,当然就想到了在命令后面加&符号?1$ python /data/python/server.py >python.log &<br>说明:<br>  &a原创 2018-09-25 12:05:42 · 4726 阅读 · 0 评论 -
python爬虫之抓取500彩票网大乐透走势图
import requestsfrom bs4 import BeautifulSoupimport jsonresults = [] def find_tops(url): wb_data = requests.get(url) wb_data.encoding = 'utf-8' soup = BeautifulSoup(wb_data.text, "html...原创 2018-09-07 11:56:46 · 9396 阅读 · 0 评论 -
Linux 安装Python3.7.0
有一些系统命令时需要用到Python2,不能卸载。1、安装依赖包1)首先安装gcc编译器,gcc有些系统版本已经默认安装,通过 gcc --version 查看,没安装的先安装gcc,yum -y install gcc2)安装其它依赖包,(注:不要缺少,否则有可能安装python出错,python3.7.0以下的版本可不装 libffi-devel )yum -y insta...原创 2019-03-12 16:34:36 · 170 阅读 · 0 评论