python学习资料大推荐

一.文档教程 廖雪峰python教程 廖老师的教程我相信不用说了吧,每个学习python的人或多或少都听说过他,对我的帮助很大。 2.python中文学习大本营 名字叫做python中文学习大本营,但是里面除了python基础教程外,更多的是flask框架的扩展文档,适合每个小伙伴查阅 3.c...

2019-06-12 10:54:02

阅读数 32

评论数 0

python常用的模块和函数

一、python内置函数 1、filter 和list 一个列表: fruits = ['orange', 'peach', 'durian', 'watermelon'] print(fruits[slice(1, 3)]) --最后的结果: ['peach', 'durian'] # s...

2019-05-22 10:36:53

阅读数 30

评论数 0

喜欢的个人技术总结网站

一、开发: 二、运维: zabbix从放弃到入门: http://www.zsythink.net/

2019-04-29 09:55:23

阅读数 51

评论数 0

python3的Scrapy安装介绍

Scrapy安装介绍 Scrapy的安装有多种方式,它支持Python2.7版本及以上或Python3.3版本及以上。下面说明Python3环境下的安装过程。 在Windows下用pip安装Scrapy报如下错误, error: Microsoft Visual C++ 14.0 is requ...

2019-04-25 17:21:16

阅读数 52

评论数 0

kafka原理系列之(四)ACK机制(数据可靠性和持久性保证)

1、kafka的ack机制的分类 request.required.asks=0 当producer向leader发送数据时,可以通过request.required.acks参数来设置数据可靠性的级别: 0:这意味着producer无需等待来自broker的确认而继续发送下一批消息。这种情况...

2019-04-25 10:46:20

阅读数 341

评论数 0

kafka原理系列之(三)replication机制(复制原理)和ISR机制(同步机制)

Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数, 可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供partition级别的复制, replication的数量可以在$KAFKA_HOME/config/ser...

2019-04-25 10:16:39

阅读数 100

评论数 0

kafka原理系列之(二)partition的消费策略

1、topic和partition以及consumer关系 一个topic 可以配置几个partition,producer发送的消息分发到不同的partition中,consumer接收数据是按照group来接收。 kafka确保每个partition只能同一个group中的同一个consume...

2019-04-24 15:13:02

阅读数 58

评论数 0

kafka原理系列之(一)消息存储和offset提交机制

kafka之消息存储和offset提交机制 Kafka具有存储功能,默认保存数据时间为7天或者大小1G,也就是说kafka broker上的数据超7天或者1G, 就会被清理掉。这些数据存放在broker服务器上,以log文件的形式存在。 kafka的安装目录下面的/conf/server.prop...

2019-04-24 13:57:00

阅读数 71

评论数 0

kafka的使用场景

转 kafka的使用场景 2018年05月10日 18:28:02 Perkinl 阅读数:2820 ...

2019-04-16 12:13:45

阅读数 61

评论数 0

大数据常见的错误总结

1、这个是的典型的NoClassDefFoundError的问题,notfound的错误肯定是少包或者少依赖的原因。 (这个错误没有遇到过也没试过) 这里是官网上的说明 https://spark.apache.org/docs/latest/hadoop-provided.html 具体执行办...

2019-04-11 16:48:16

阅读数 39

评论数 0

hive数据导入到hbase的方式总结

前言:因为hbase不支持二级索引,如果是后面hive导入hbase需要组合查询的话,那么就的引入phoenix。 hive2hbase三种方式 1.hive和hbase建映射表 直接操作hive表就是操作hbase表 --关系数据导入hbase,进行数据初始化, 但是这种会hive的分区和hba...

2019-04-11 15:30:53

阅读数 215

评论数 0

数据仓库中拉链表和流水表

前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉...

2019-04-10 16:52:21

阅读数 151

评论数 0

HIVE异常处理(三)关于字段和hive中的预留字段冲突的问题

1、如果你的hive建表的时候的字段会和hive的关键字重复的话,那么执行hql的时候会报错。 创建表出现如下错误(表字段或表名与hive内部的关键字冲突了(e.g:order,date……)等, FAILED: ParseException line 6:0 Failed to recogniz...

2019-04-10 13:53:08

阅读数 52

评论数 0

Spark中的RDD、DataFrame、Dataset对比

转载自《每日五分钟搞定大数据》公众号:大叔据每周不定时更新 点击看《每日五分钟搞定大数据》完整思维导图以及所有文章目录 1. 三者共性: 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,执行trainform操...

2019-04-10 09:59:00

阅读数 94

评论数 0

windows环境下spark2mysql插入中文乱码问题(亲自试探过)

前言:网上搜集了很多资料,又惊醒了多次试探,终于成功了。 刚开始spark插入mysql的数据格式。 后面按照网上一顿更改my.ini文件也还是没有改好。 1、找到C:\ProgramData\MySQL\MySQL Server 5.7下的my.ini文件,右键用Notepad++打开,修...

2019-04-09 17:38:21

阅读数 31

评论数 0

数据可视化常用框架(开发和非开发的)

一、我们自己直接下载使用的可视化框架有Hue,zeppelin。 http://gethue.com http://zeppelin.apache.org/ 二、需要开发才能使用的有下面几种: 根据下面各个框架本身的特性,以及各自的优缺点,推荐使用D3或者ECharts作为数据可视化的首选框架,某...

2019-04-09 14:40:12

阅读数 79

评论数 0

spark相似算子之coalesce和repartition的区别

一.spark 分区 partition的理解: spark中是以vcore级别调度task的。 如果读取的是hdfs,那么有多少个block,就有多少个partition 举例来说:sparksql 要读表T, 如果表T有1w个小文件,那么就有1w个partition 这时候读取效率会较...

2019-03-29 16:51:14

阅读数 60

评论数 0

hive的一般的生产环境数据优化的参数设置

1、合并小文件 hive.merge.mapfile=true; 在Map-only的任务结束时合并小文件。 是否开启合并 Map 小文件,对于 Hadoop 0.20 以前的版本,起一个新的 Map/Reduce Job,对于 0.20 以后的版本,则是起使用 CombineInputForm...

2019-03-21 15:12:27

阅读数 39

评论数 0

OpenAPI 3.0.0 通过SwaggerHub编写接口文档

Swagger-如何编写基于OpenAPI规范的API文档(详细操作) <link rel="stylesheet" href="ht...

2019-03-14 13:56:35

阅读数 99

评论数 0

Open API是什么?

Open API即开放API,也称开放平台。 所谓的开放API(OpenAPI)是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成一系列API(Application Programming Interface,应用编程接口)开放出去,供第三方开发者使用,这种行为就叫做开放网站的API...

2019-03-14 13:52:37

阅读数 50

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭