warrah 南极狼

196
原创
0
转载
0
译文
7
评论
43816
访问

我的博客文章

2017
19

bug宝典Python篇 pkg_resources.DistributionNotFound: The 'pip==7.1.0' distribution was not found and is

#安装pip tar -zxvf pip-9.0.1.tar.gz cd pip-9.0.1 python setup.py install 再执行pip --version,提示下面的异常[root@ceshi187 pip-9.0.1]# pip --version Traceback (most recent call last): File "/usr/bin/pip", line 5

(26)(0)
2017
17

第4.1章 scrapy之web工程

简约而不简单的Django新手图文教程, 这个文档中代码已经把django的基础写得比较详细了,来了解一下WSGI这个概念下面要写的主要是django web工程的改造。 1 静态文件配置

(34)(0)
2017
17

第3.2章 scrapy之kafka

1 安装kafka-python kafka-python 1.3.3,通过pip install kafka-python或者kafka_python-1.3.3-py2.py3-none-any.whl下载,然后再进行pip安装 2 centos下kafka 这里参考别人的部署说明,拾人牙慧一下 Kafka单机、集群模式安装详解(一) Kafka单机、集群模式安装详解(二)

(26)(0)
2017
05

第2.3章 scrapy之selenium

将selenium应用到scrapy本身并不复杂,复杂的是请求页面的时候,经常会提示timeout,而你很难很快找到解决办法,下面设置了两个时间点,单位为s,超时时间根据各自的应用决定。import sys import time import random import traceback from selenium.common.exceptions import TimeoutExceptio

(41)(0)
2017
03

第1.8章 scrapy之splash的使用

centos安装docker 执行docker pull scrapinghub/splash,获取splash镜像 Splash使用初体验 使用splash爬取动态页面,参考scrapy+splash 爬取动态网站(JS) 参考: docker pull不下来镜像是什么原因 Scrapy-Splash爬取淘宝排行榜(一) Scrapy-Splash爬取淘宝排行榜(二) Scrapy

(44)(0)
2017
28

bug宝典Python篇 WindowsError: [Error 32] Logged from file remote_connection.py

from selenium import webdriver driver = webdriver.Firefox()按照上面的方法启动firefox,提示异常信息如下:[2017-06-28 11:35:57][remote_connection.py][line:478][DEBUG] POST http://127.0.0.1:14183/session {"capabilities": {"

(44)(0)
2017
28

bug宝典Python篇 no 'moz:firefoxOptions.binary' capability provided

from selenium import webdriver driver = webdriver.Firefox() driver.get('https://www.baidu.com')简单的三句话,却启动不了firefox,还提示下面的错误Traceback (most recent call last): File "F:\pythonwork\craw_demo\six\firefox

(34)(0)
2017
23

bug宝典Python篇 environment can only contain strings

环境python2.7.12 scrapyd-1.2.0 scrapyd-client-1.1.0在windows环境下使用scrapyd-deploy -p eie的时候提示下面的异常Packing version 1498207812 Deploying to project "eie" in http://localhost:6800/addversion.json Server respon

(161)(4)
2017
21

第1.7章 scrapy之ip代理的使用

1 代理中间件 代码核心在于随机选择一条代理的ip和port,至于代理ip和port的来源,可以是购买的ip代理,也可以从网上爬取的。# -*- coding: utf-8 -*- ''' Created on 2017年6月14日@author: dzm ''' from eie.middlewares import udf_config from eie.service.EieIpServic

(59)(0)
2017
16

第3.1章 scrapy之pandas操作Mysql

pandas自身的操作说明参考十分钟搞定pandas,这里介绍pandas+sqlalchemy对数据的操作 1 查询import pandas as pd from eie.dao import MysqlDao import json def select(self,types=None): if types: sql = "select ip,port,types f

(48)(0)
2017
16

第2.2章 scrapy之多进程检测代理ip的有效性

1 multiprocessing Python多进程multiprocessing使用示例 mutilprocess的作用是能够像线程一样管理进程,在多核CPU利用率比threading要好的多。 2 从数据库中读取爬到的代理进行验证 下面的代码参考了qiyeboy/IPProxyPool# -*- coding: utf-8 -*- ''' Created on 2017年6月14日 检

(60)(0)
2017
14

第1.6章 scrapy之logger

网上有很多介绍logger的配置,但是我在执行过程中发现scrapy中使用,logger.cfg的文件的位置还有要求,因为scrapy和普通的python脚本根目录是有区别的 下图绿色字体表示scrapy的根是与scrapy.cfg的直接上级目录 而红色字体的根是与settings.py的直接上级目录, 这里是有区别的,要想通用,最简单的办法,就是在这两个根目录下面都加上logger.cfg文

(48)(0)
2017
13

第1.5章 scrapy之pipelines

下面的代码是结合pandas和sqlalchemy将数据写入到mysql数据库中。# -*- coding: utf-8 -*-# 管道的作用主要是做数据清洗 from eie.middlewares import udf_config from sqlalchemy.engine import create_engine import pandas as pd from eie import se

(48)(0)
2017
13

第1.4章 scrapy之setting

# -*- coding: utf-8 -*- BOT_NAME = 'eie'SPIDER_MODULES = ['eie.spiders'] NEWSPIDER_MODULE = 'eie.spiders' # 爬虫规则配置 # robots.txt规则 ROBOTSTXT_OBEY = False # 下载延迟 DOWNLOAD_DELAY = 3 #启用Cookie COOKIES_ENAB

(51)(0)
2017
13

第1.3章 scrapy之动态UserAgent

防范爬虫,从HTTP请求头部信息开始,所以UserAgent需要做动态设置# -*- coding: utf-8 -*- ''' Created on 2017年4月21日 用户代理 @author: dzm @param 加密等级标识: N:无安全加密,I:弱安全加密, U:强安全加密 @param 渲染引擎: Gecko、WebKit、KHTML、Presto、Trident、Tasman等

(102)(0)
202条 共14页1 2 3 4 5 ... 下一页 尾页
img

warrah

等级:

排名:第15453名

文章分类
文章存档
阅读排行
评论排行
推荐文章
最新评论
img