自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

花木兰

菜鸟的自我成长

  • 博客(21)
  • 收藏
  • 关注

原创 inappropriate ioctl for device(待解决)

背景:ju py te r 运行线上环境,报错 [Errno 25] Inappropriate ioctl for device

2019-03-31 12:57:36 25282

原创 pyspark df 用一列的值填充另一列的空值

方法一 @udf("double") def get(a, b): if a and a != 0.0: return a else: return b

2019-03-26 16:06:51 2983

原创 pyspark 分组取前几个(已解决)

pyspark 怎样根据user_id和item_id分组,然后去到时间最新的前两个数据?????

2019-03-26 12:29:59 7771 2

原创 mac 安装protobuf

访问protocolbuffers/protobuf找到需要的版本下载压缩包wget https://github.com/protocolbuffers/protobuf/releases/download/v3.7.0/protobuf-python-3.7.0.zip解压unzip protobuf-python-3.7.0.zip cd protobuf-3.7.0/...

2019-03-20 22:19:26 2382

原创 docker 安装es中文分词器并生成新的镜像

背景docker 里运行es,但是需要用到中文分词器,需要下载分词器,并且生产新的镜像分析器下载地址:[https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.6.12/elasticsearch-analysis-ik-5.6.12.zip]首先进入镜像:docker ps 查看所有容器dock...

2019-03-20 20:31:56 1283

翻译 ES索引管理

1索引设置下面是两个最重要的设置number_of_shards每个索引的主分片数,默认值是 5 。这个配置在索引创建后不能修改。number_of_replicas每个主分片的副本数,默认值是 1 。对于活动的索引库,这个配置可以随时修改eg:PUT /my_temp_index{ "settings": { "number_of_shards" : ...

2019-03-20 16:45:57 2034

翻译 ES核心元数据

文档元数据一个文档不仅仅包含它的数据 ,也包含 元数据 —— 有关 文档的信息。 三个必须的元数据元素如下:_index文档在哪存放_type文档表示的对象类别_id文档唯一标识_index一个 索引 应该是因共同的特性被分组到一起的文档集合。 例如,你可能存储所有的产品在索引 products 中,而存储所有销售的交易到索引 sales 中。 虽然也允许存储不相关的数据到...

2019-03-20 15:56:11 1098

原创 docker 安装es

docker pull registry.docker-cn.com/library/elasticsearch 2.查看镜像docker images3.运行docker run -e ES_JAVA_OPTS="-Xms256m -Xmx256m" -d -p 9200:9200 -p 9300:9300 --name myes 5acf0e8da90b4.查看...

2019-03-19 14:39:33 1784

转载 ETCD概念及原理

什么是etcdetcd 是一个分布式键值对存储,设计用来可靠而快速的保存关键数据并提供访问。通过分布式锁,leader选举和写屏障(write barriers)来实现可靠的分布式协作。etcd集群是为高可用,持久性数据存储和检索而准备。"etcd"这个名字源于两个想法,即 unix “/etc” 文件夹和分布式系统"d"istibuted。 “/etc” 文件夹为单个系统存储配置数据的地...

2019-03-19 12:12:11 5145 1

转载 zookeeper基本概念和原理

zookeeper是什么zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件,它是集群的管理者,监视着集群中各个节点的状态,根据节点的反馈进行下一步合理的操作。最终将,简单易用的接口和性能高效、功能稳定的系统提供给用户。ZK原理核心是原子广播,这个机制保证了各个server之间的同步。实现...

2019-03-19 10:45:56 222

转载 http 1.1和2.0的区别

参考HTTP/2.0 相比1.0有哪些重大改进?多路复用多路复用允许同时通过单一的 HTTP/2 连接发起多重的请求-响应消息HTTP2.0使用了多路复用的技术,做到同一个连接并发处理多个请求,而且并发请求的数量比HTTP1.1大了好几个数量级。当然HTTP1.1也可以多建立几个TCP连接,来支持处理更多并发的请求,但是创建TCP连接本身也是有开销的。TCP连接有一个预热和...

2019-03-17 10:25:20 286

原创 Fatal Python error: Py_Initialize: unable to load the file system codec

打开terminal报错Could not find platform independent libraries <prefix>Could not find platform dependent libraries <exec_prefix>Consider setting $PYTHONHOME to <prefix>[:<exec_prefi...

2019-03-15 15:45:51 3962 1

转载 实际的web服务器会做什么

建立连接-接受一个客户端的连接,或者如果不希望与这个客户建立连接,就将其关闭 接受请求-从网络中读取一条http请求 处理请求-对请求报文进行解释,并采取行动 访问资源-访问报文中指定的资源 构建响应-创建带有正确首部的http响应报文 发送响应-将响应回送给客户端 记录事务处理过程-将与已完成的有关内容记录在一个日志文件中from HTTP 权威指南...

2019-03-14 20:23:06 132

翻译 发送一个http请求以及url三部分组成和语法

浏览器从URL中解析出服务器的主机名 浏览器讲服务器的主机名转化成服务器的IP地址(DNS解析) 浏览器将端口号从URL解析出来 浏览器建立一条鱼web服务器的TCP连接 浏览器向服务器发送一条http请求报文 服务器向浏览器回送一条http响应报文 关闭连接,浏览器显示文档URL通用格式:<scheme>://<user>:<password>...

2019-03-14 19:46:49 4345

原创 http详解及周围知识

一、http协议http协议(HyperText Transfer Protocol)是因特网上应用最为广泛的一种网络传输协议,所有的3w文件必须遵守这个协议,绝大多数的web开发都是构建在http 之上。http是一个基于tcp/ip通信协议来传输数据的协议。设计http的最初目的是为了提供接收和发布html页面的方法。二、特点无状态无状态:http协议是无状态协议。无状...

2019-03-14 17:40:37 167

原创 pandas 时间戳转时间保留北京时间日期(to_datetime )

``` user_id create_time0 38441 15410016021 38442 15410016642 38443 15410017443 38444 15410019264 38445 15410020125 38446 15410024136 38447 15410...

2019-03-14 12:19:51 9044

翻译 python os设置环境变量

一、设置系统环境变量1、os.environ[‘环境变量名称’]=‘环境变量值’ #其中key和value均为string类型2、os.putenv(‘环境变量名称’, ‘环境变量值’)二、获取系统环境变量1、os.environ[‘环境变量名称’]2、os.getenv(‘环境变量名称’)...

2019-03-14 10:56:32 17537

翻译 Golang 方法 method

方法能给用户的类型添加新的行为。实际上也是函数,只是在声明时,在关键字func和方法名之间增加了一个参数//展示如何声明并使用方法package mainimport "fmt"//user 在程序里定义了一个用户类型type user struct { name string email string}//notify 使用值接收者实现了一个方法/...

2019-03-11 16:44:18 378

原创 pyspark 读取mysql 数据库,返回类型是true和false

问题描述源码如下: table=''' (select type,`question_id`,status from t_question limit 10) tmp ''' df=self.read_table(sc=sc,table=table) df.show() return df读出来结果如下:数据库中ty...

2019-03-05 20:11:46 604

原创 spark.sql.Row

DF 的 一行

2019-03-04 10:25:24 2653 1

原创 pyspark df 和pandas df 的行数count不一样

需要设置,multiLine=Truedf=spark.read.csv('t_question.csv',header=True,multiLine=True)

2019-03-01 16:54:10 1377

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除