春华秋实

本博客所有内容仅供学习,不允许商用,如有侵权,请联系博主删除,谢谢。...

mac下kafka环境搭建 测试

kafka介绍:https://blog.csdn.net/see_you_see_me/article/details/78468108 1、安装工具brew install kafka 会自动安装依赖zookeeper 2、安装配置文件位置 /usr/local/etc/kafka|zoo...

2018-11-29 20:47:10

阅读数:53

评论数:3

hive lateral view 与 explode详解

Hive 中的复合数据结构简介以及一些函数的用法说明 hive lateral view 与 explode详解

2018-11-20 20:41:38

阅读数:62

评论数:0

python单元测试

python中的单元测试,主要有3种方式: 1.unittest 2.nose(nose2) 3.pytest 关于unittest的使用,非常简单,继承TeseCase: https://docs.python.org/2/library/unittest.html#unittest....

2018-11-15 17:45:37

阅读数:72

评论数:1

写在学前--高级架构师之路

做为一个3年的程序员,用Java到Python,从Web开发到大数据开发、数据挖掘、NLP的技术都在学习,但是零碎的知识点,无法构建起一个知识体系,这是为什么呢? 首先,现在公司的岗位配置非常细化,每个人就负责那么一小部分,做好自己的就好,其他的不要求,更不会强求,所以大多数时候要看自己。 从...

2018-11-08 13:54:05

阅读数:98

评论数:0

hive几种执行sql的方式总结

在命令行界面下,我们来看看hive sql的几种执行方式: root@hadoop-senior hive-0.13.1]$ bin/hive -help usage: hive -d, --define <key=value>         Var...

2018-11-06 14:34:41

阅读数:184

评论数:0

史上最强的融资方案商业计划书

史上最强的融资方案商业计划书 资本时代:领先一步等于领先一路,领先一年等于领先一个时代! 这个问题需要从企业发展过程中的融资谈起,企业要获得发展就一定要有大量资金的支持才行。一般来讲,企业获取资金支持的主要方式: 我们来逐个分析各个投资情况 先看股东,股东是希望开企业赚钱的,是想从企业获利...

2018-10-31 16:37:41

阅读数:249

评论数:1

基于Fluentd的EFK日志收集方案

关于系统日志收集处理方案,其实有很多种,因为之前使用ES比较多,所以也认为ELK是一个不错的解决方案,ELK(Elasticsearch + Logstash + Kibana)来管理日志。Logstash是一个具有实时渠道能力的数据收集引擎,但和fluentd相比,它在效能上表现略逊一筹,故而逐...

2018-10-24 14:00:24

阅读数:101

评论数:0

GitLab CI持续集成配置方案

持续集成是一种软件开发实践,即团队开发成员经常集成它们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。 关于持续集成,很不错的文章: 1.https://www.cnblogs.co...

2018-10-20 12:06:55

阅读数:48

评论数:0

使用PDB调试Python程序的完整实践

从Java一路走来,习惯了使用IDEA来调试代码,平时写python也都是使用Jupyter notebook,但是现在逐渐转行到Python开发,突然在linux下进行python代码调试,就会显得有点不习惯了。 下面先从python调试工具PDB开始。 介绍 在开发简单程序的时候,可以通...

2018-10-18 13:20:23

阅读数:52

评论数:0

HBase: Thrift写数据报错——socket.error: [Errno 32] Broken pip

博主用的是python来读写hbase 需要安装 pip install thrift 和 pip install hbase-thrift hbase客户端创建: from thrift import Thrift from thrift.transport import TSocket...

2018-10-17 11:16:12

阅读数:94

评论数:0

各个企业创始人记录--【持续更新中!!!】

各个企业品牌创始人记录: 企业品牌创始人表 企业\品牌 创始人 外婆家 吴国平 迪安诊断 陈海斌 NPC潮流文化 李晨 银泰 沈国军 万通控股 冯仑          ...

2018-10-12 14:01:00

阅读数:74

评论数:0

Python打包分发工具setuptools简介

Python打包分发工具setuptools 通过这个工具,可以打包安装插件,并且还可以发布到PyPI上面,具体参考: 1.http://python.jobbole.com/87240/ 2.http://python.jobbole.com/86443/?utm_source=blog....

2018-10-10 20:15:35

阅读数:69

评论数:0

程序员的自我进化:技术的广度与深度怎么权衡

程序员的自我进化:技术的广度与深度怎么权衡 工作2-3年了,如果你已经走在自己喜欢和感兴趣的技术路上,那么首先恭喜你了;如果你还在技术圈迷茫和困惑,也请保持微笑。无论你属于那种情况,对于绝大多数人来说,不妨停下脚步来看看,我们应该如何看待技术。我们都希望自己的技术既有广度又有深度,但事实上,鱼与...

2018-09-23 10:23:13

阅读数:246

评论数:0

常用的python命令行解析库

常用的python命令行解析库,这儿介绍3种: 1.argparse 2.click 3.fire   argparse是python自带的模块,要经历解析器初始化、参数定义、解析一套流程,使用起来有些繁琐。 一篇argparse使用的文章:https://www.cnblogs.co...

2018-09-17 19:28:25

阅读数:149

评论数:0

win10安装docker

近一年来,有一个直观的感觉,数据领域围绕大数据进行计算分析和人工智能算法进行挖掘和建模应用,而在程序架构上,好多企业在往微服务方向走,微服务越来火,比如Spring-boot、Spring-cloud等,而在服务部署上,传统都是采用tomcat、weblogic这种单体部署方式,常常一个应用很大,...

2018-09-15 14:24:11

阅读数:113

评论数:0

Hive之数据倾斜的原因和解决方法

数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低...

2018-09-02 22:22:44

阅读数:184

评论数:0

主成分分析PCA

简单介绍下PCA的应用 PCA和线性回归的区别: PCA的目的和优势:    

2018-08-15 17:59:24

阅读数:402

评论数:0

视野

在这个信息时代,没有人的视野会受阻,人们最缺乏的并不是视野的广度,而是视野的深度。 事实上,我觉得可以粗略的把人分为两类:追求低成本的快乐的人,追求深层次体验的人。 如果只是想想,当然每个人都会说”我要过丰富的生活,有极致的体验“。但落实到你需要付出多少代价层面,其实大多数人的选择,是在“低成...

2018-08-13 13:57:25

阅读数:233

评论数:0

机器学习的理论知识点总结

最近一边看书,一边梳理机器学习的知识点: 1. 线性回归 2.线性回归的损失函数(误差的平方和) 3. 最小二乘法(手推导) 4.批量梯度下降法(学习率大小问题) 5.放缩scaling对梯度下降的影响 6.多元线性回归 7.逻辑斯蒂回归-二元分类 8.LR代价函数 9.神经网络...

2018-08-03 14:56:15

阅读数:384

评论数:0

using a dict on a Series for aggregation is deprecated and will be removed in a future version

python的pandas中,在统计聚合的时候,版本问题,提示不支持字典格式了。 比如,下面代码这样改就可以了。 words_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数":...

2018-08-01 13:38:20

阅读数:804

评论数:3

提示
确定要删除当前文章?
取消 删除