2018年07月_打个大西瓜77

原创 centos7下git服务器搭建

git的安装：yum 源仓库里的 Git 版本更新不及时，最新版本的 Git 是 1.8.3.1，但是官方最新版本已经到了 2.9.2。想要安装最新版本的的 Git，只能下载源码进行安装。1. 查看 yum 源仓库的 Git 信息： 1 # yum info git 可以看出，截至目前，yum 源仓库中最新的 Git 版本才 1.8.3....

2018-07-27 09:58:07 226

原创在CentOS 7中搭建Git服务器

在CentOS 7中搭建Git服务器2017年12月12日 12:34:43环境说明 - CentOS 7.x 最小安装 - 配置网络连接1. 安装Git及创建用户# 安装Git$ yum install git# 创建一个git用户组和用户，用来运行git服务$ groupadd git$ adduser git -g git禁止git用户登录:修改/e...

2018-07-26 15:28:59 201

转载 python分布式架构celery

Celery 官网：http://www.celeryproject.org/Celery 官方文档英文版：http://docs.celeryproject.org/en/latest/index.htmlCelery 官方文档中文版：http://docs.jinkan.org/docs/celery/celery配置：http://docs.jinkan.org/docs/cel...

2018-07-24 16:04:48 921

转载 Jenkins+Docker+gitlab自动化集成环境

最近使用docker+jenkins+gitlab搭建了持续集成环境，原理如下图所示（没有画图，引用了http://www.jianshu.com/p/358bfb64e3a6的图）：随着DevOps理念和敏捷理念的发展，我们希望通过自动化技术，加快项目的迭代。尤其是当使用微服务方案后，面临在大量的项目构建和部署工作，借助于jenkins的持续集成，可以快速把应用打包成docker镜像，实现自...

2018-07-24 15:50:44 7372 1

原创 kubernetes DNS配置

DNS (domain name system),提供域名解析服务，解决了难于记忆的IP地址问题，以更人性可读可记忆可标识的方式映射对应IP地址。Cluster DNS扩展插件用于支持k8s集群系统中各服务之间发现与调用。　　组件：　　•SkyDNS 提供DNS解析服务　　•Etcd 存储DNS信息　　•Kube2sky 监听kubernetes，当有Service创建时，生成相...

2018-07-24 10:48:59 919

转载 pyspark系列--日期函数

日期函数 1. 获取当前日期 2. 获取当前日期和时间 3. 日期格式转换 4. 字符转日期 5. 获取日期中的年月日 6. 获取时分秒 7. 获取日期对应的季度 8. 日期加减 9. 月份加减 10. 日期差,月份差 11. 计算下一个日子的日期 12. 本月的最后一个日期1. 获取当前日期from pyspark.sql.functions import...

2018-07-19 11:46:35 7340

转载 pyspark系列--字符串函数

字符串函数1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数1. 字符串拼接from pyspark.sql.functions import concat, concat_wsdf = spark.createDataFrame([('abcd','123')], ['s', ...

2018-07-19 11:45:21 6603

转载 spark 函数（python）

RDD的概念 RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。　　...

2018-07-19 10:27:54 621

原创爬虫iframe blocked解决

pyspider爬虫遇到iframe blocked的时候;需要绕过iframe跨域问题，直接爬取iframe框架url：上边为iframe框架封的数据，我们找到iframe框架内的url，直接爬取该url数据：爬取该url数据：解决iframe的问题，不介意直接攻克，正面刚很复杂，跳过iframe去解决问题...

2018-07-06 14:35:18 3852 2

原创带cookie验证解决方法

示例：不带cookie：带cookie结果;分析cookie：示例无论是什么设备，第一次访问该站，都会弹出一个521的错误状态码，与此同时还会返回一个Cookie。浏览器接受到状态码与Cookie，会再次进行一次请求，因为接收到了Set-Cookie，所以第二次的Request Headers会附上之前接收到cookie这样的请求才是成功的。这个防爬虫的方法非常基础，利用了普通爬虫与浏览器对于St...

2018-07-06 14:18:03 3121

原创 pyspider打开url看不到内容

示例：未使用phantomjs前：数据部分为空白url列表：使用phantomjs：url列表：遇到这类动态js封装数据的情况，建议使用phantomjs

2018-07-06 13:45:12 739

原创爬取动态js html数据方法二使用phantomjs

pyspider示例代码一：利用phantomjs解决js问题本系列文章主要记录和讲解pyspider的示例代码，希望能抛砖引玉。pyspider示例代码官方网站是http://demo.pyspider.org/。上面的示例代码太多，无从下手。因此本人找出一下比较经典的示例进行简单讲解，希望对新手有一些帮助。示例说明：如果页面中部分数据或文字由js生成，pyspider不能直接提取页面的数据。p...

2018-07-06 13:37:27 908

原创爬取异步请求（XHR/JS）数据方法一人工分析异步请求

# !/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-07-06 12:30:04# Project: test1from pyspider.libs.base_handler import *class Handler(BaseHandler): crawl_config = { } ...

2018-07-06 13:16:23 5542

u010955999的博客