关闭

产品到平台的思考1

2016年参见中国软件网组织的互联网会议,曹开彬讲解的“2016中国企业应用生态现状与趋势”记忆颇深,其他的参与方例如联通、滴滴等都是过来做自己的广告。未来的十年将是“数字经济”的热点。时隔一年,我搭建我们公司平台后,开始思考产品与平台的定位,初期难免拾人牙慧,碎片化,但我希望我能坚持,并逐渐形成自己的思考和文字。 初创企业由于资金有限,往往从单一产品进行孵化。单一产品的优势是企业可以集中资...
阅读(38) 评论(0)

第1.8章 scrapy之完整工程部署

1 scrapy# 安装sqlite yum install sqlite-devel # 升级python到2.7.12,注意原系统中python版本 tar -zxvf Python-2.7.12.tgz cd Python-2.7.12 ./configure make all make install make clean make distclean mv /usr/bin/...
阅读(113) 评论(0)

bug宝典Python篇 pkg_resources.DistributionNotFound: The 'pip==7.1.0' distribution was not found and is

#安装pip tar -zxvf pip-9.0.1.tar.gz cd pip-9.0.1 python setup.py install 再执行pip --version,提示下面的异常[root@ceshi187 pip-9.0.1]# pip --version Traceback (most recent call last): File "/usr/bin/pip", line 5...
阅读(480) 评论(0)

第4.1章 scrapy之web工程

简约而不简单的Django新手图文教程, 这个文档中代码已经把django的基础写得比较详细了,来了解一下WSGI这个概念下面要写的主要是django web工程的改造。 1 静态文件配置...
阅读(95) 评论(0)

第3.2章 scrapy之kafka

1 安装kafka-python kafka-python 1.3.3,通过pip install kafka-python或者kafka_python-1.3.3-py2.py3-none-any.whl下载,然后再进行pip安装 2 centos下kafka 这里参考别人的部署说明,拾人牙慧一下 Kafka单机、集群模式安装详解(一) Kafka单机、集群模式安装详解(二)...
阅读(181) 评论(0)

第2.3章 scrapy之selenium

将selenium应用到scrapy本身并不复杂,复杂的是请求页面的时候,经常会提示timeout,而你很难很快找到解决办法,下面设置了两个时间点,单位为s,超时时间根据各自的应用决定。import sys import time import random import traceback from selenium.common.exceptions import TimeoutExceptio...
阅读(133) 评论(0)

第1.8章 scrapy之splash的使用

centos安装docker 执行docker pull scrapinghub/splash,获取splash镜像 Splash使用初体验 使用splash爬取动态页面,参考scrapy+splash 爬取动态网站(JS) 参考: docker pull不下来镜像是什么原因 Scrapy-Splash爬取淘宝排行榜(一) Scrapy-Splash爬取淘宝排行榜(二) Scrapy...
阅读(137) 评论(0)

bug宝典Python篇 WindowsError: [Error 32] Logged from file remote_connection.py

from selenium import webdriver driver = webdriver.Firefox()按照上面的方法启动firefox,提示异常信息如下:[2017-06-28 11:35:57][remote_connection.py][line:478][DEBUG] POST http://127.0.0.1:14183/session {"capabilities": {"...
阅读(604) 评论(0)

bug宝典Python篇 no 'moz:firefoxOptions.binary' capability provided

from selenium import webdriver driver = webdriver.Firefox() driver.get('https://www.baidu.com')简单的三句话,却启动不了firefox,还提示下面的错误Traceback (most recent call last): File "F:\pythonwork\craw_demo\six\firefox...
阅读(125) 评论(0)

bug宝典Python篇 environment can only contain strings

环境python2.7.12 scrapyd-1.2.0 scrapyd-client-1.1.0在windows环境下使用scrapyd-deploy -p eie的时候提示下面的异常Packing version 1498207812 Deploying to project "eie" in http://localhost:6800/addversion.json Server respon...
阅读(512) 评论(4)

第1.7章 scrapy之ip代理的使用

1 代理中间件 代码核心在于随机选择一条代理的ip和port,至于代理ip和port的来源,可以是购买的ip代理,也可以从网上爬取的。# -*- coding: utf-8 -*- ''' Created on 2017年6月14日@author: dzm ''' from eie.middlewares import udf_config from eie.service.EieIpServic...
阅读(223) 评论(0)

第3.1章 scrapy之pandas操作Mysql

pandas自身的操作说明参考十分钟搞定pandas,这里介绍pandas+sqlalchemy对数据的操作 1 查询import pandas as pd from eie.dao import MysqlDao import json def select(self,types=None): if types: sql = "select ip,port,types f...
阅读(99) 评论(0)

第2.2章 scrapy之多进程检测代理ip的有效性

1 multiprocessing Python多进程multiprocessing使用示例 mutilprocess的作用是能够像线程一样管理进程,在多核CPU利用率比threading要好的多。 2 从数据库中读取爬到的代理进行验证 下面的代码参考了qiyeboy/IPProxyPool# -*- coding: utf-8 -*- ''' Created on 2017年6月14日 检...
阅读(140) 评论(0)

第1.6章 scrapy之logger

网上有很多介绍logger的配置,但是我在执行过程中发现scrapy中使用,logger.cfg的文件的位置还有要求,因为scrapy和普通的python脚本根目录是有区别的 下图绿色字体表示scrapy的根是与scrapy.cfg的直接上级目录 而红色字体的根是与settings.py的直接上级目录, 这里是有区别的,要想通用,最简单的办法,就是在这两个根目录下面都加上logger.cfg文...
阅读(94) 评论(0)

第1.5章 scrapy之pipelines

下面的代码是结合pandas和sqlalchemy将数据写入到mysql数据库中。# -*- coding: utf-8 -*-# 管道的作用主要是做数据清洗 from eie.middlewares import udf_config from sqlalchemy.engine import create_engine import pandas as pd from eie import se...
阅读(91) 评论(0)
204条 共14页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:72442次
    • 积分:2785
    • 等级:
    • 排名:第13361名
    • 原创:204篇
    • 转载:0篇
    • 译文:0篇
    • 评论:11条
    最新评论