自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 centos7下git服务器搭建

git的安装:yum 源仓库里的 Git 版本更新不及时,最新版本的 Git 是 1.8.3.1,但是官方最新版本已经到了 2.9.2。想要安装最新版本的的 Git,只能下载源码进行安装。1. 查看 yum 源仓库的 Git 信息: 1 # yum info git 可以看出,截至目前,yum 源仓库中最新的 Git 版本才 1.8.3....

2018-07-27 09:58:07 226

原创 在CentOS 7中搭建Git服务器

在CentOS 7中搭建Git服务器2017年12月12日 12:34:43环境说明 - CentOS 7.x 最小安装 - 配置网络连接1. 安装Git及创建用户# 安装Git$ yum install git# 创建一个git用户组和用户,用来运行git服务$ groupadd git$ adduser git -g git禁止git用户登录:修改/e...

2018-07-26 15:28:59 201

转载 python分布式架构celery

Celery 官网:http://www.celeryproject.org/Celery 官方文档英文版:http://docs.celeryproject.org/en/latest/index.htmlCelery 官方文档中文版:http://docs.jinkan.org/docs/celery/celery配置:http://docs.jinkan.org/docs/cel...

2018-07-24 16:04:48 921

转载 Jenkins+Docker+gitlab自动化集成环境

最近使用docker+jenkins+gitlab搭建了持续集成环境,原理如下图所示(没有画图,引用了http://www.jianshu.com/p/358bfb64e3a6的图):随着DevOps理念和敏捷理念的发展,我们希望通过自动化技术,加快项目的迭代。尤其是当使用微服务方案后,面临在大量的项目构建和部署工作,借助于jenkins的持续集成,可以快速把应用打包成docker镜像,实现自...

2018-07-24 15:50:44 7372 1

原创 kubernetes DNS配置

DNS (domain name system),提供域名解析服务,解决了难于记忆的IP地址问题,以更人性可读可记忆可标识的方式映射对应IP地址。Cluster DNS扩展插件用于支持k8s集群系统中各服务之间发现与调用。  组件:  •SkyDNS 提供DNS解析服务  •Etcd 存储DNS信息  •Kube2sky 监听kubernetes,当有Service创建时,生成相...

2018-07-24 10:48:59 919

转载 pyspark系列--日期函数

 日期函数 1. 获取当前日期 2. 获取当前日期和时间 3. 日期格式转换 4. 字符转日期 5. 获取日期中的年月日 6. 获取时分秒 7. 获取日期对应的季度 8. 日期加减 9. 月份加减 10. 日期差,月份差 11. 计算下一个日子的日期 12. 本月的最后一个日期1. 获取当前日期from pyspark.sql.functions import...

2018-07-19 11:46:35 7340

转载 pyspark系列--字符串函数

 字符串函数1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数1. 字符串拼接from pyspark.sql.functions import concat, concat_wsdf = spark.createDataFrame([('abcd','123')], ['s', ...

2018-07-19 11:45:21 6603

转载 spark 函数(python)

  RDD的概念         RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。  ...

2018-07-19 10:27:54 621

原创 爬虫iframe blocked解决

pyspider爬虫遇到iframe blocked的时候;需要绕过iframe跨域问题,直接爬取iframe框架url:上边为iframe框架封的数据,我们找到iframe框架内的url,直接爬取该url数据:爬取该url数据:解决iframe的问题,不介意直接攻克,正面刚很复杂,跳过iframe去解决问题...

2018-07-06 14:35:18 3852 2

原创 带cookie验证解决方法

示例:不带cookie:带cookie结果;分析cookie:示例无论是什么设备,第一次访问该站,都会弹出一个521的错误状态码,与此同时还会返回一个Cookie。浏览器接受到状态码与Cookie,会再次进行一次请求,因为接收到了Set-Cookie,所以第二次的Request Headers会附上之前接收到cookie这样的请求才是成功的。这个防爬虫的方法非常基础,利用了普通爬虫与浏览器对于St...

2018-07-06 14:18:03 3121

原创 pyspider打开url看不到内容

示例:未使用phantomjs前:数据部分为空白url列表:使用phantomjs:url列表:遇到这类动态js封装数据的情况,建议使用phantomjs

2018-07-06 13:45:12 739

原创 爬取动态js html数据方法二 使用phantomjs

pyspider示例代码一:利用phantomjs解决js问题本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉。pyspider示例代码官方网站是http://demo.pyspider.org/。上面的示例代码太多,无从下手。因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助。示例说明:如果页面中部分数据或文字由js生成,pyspider不能直接提取页面的数据。p...

2018-07-06 13:37:27 908

原创 爬取异步请求(XHR/JS)数据方法一人工分析异步请求

# !/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-07-06 12:30:04# Project: test1from pyspider.libs.base_handler import *class Handler(BaseHandler): crawl_config = { } ...

2018-07-06 13:16:23 5542

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除