自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

春华秋实

本博客所有内容仅供学习,不允许商用,如有侵权,请联系博主删除,谢谢。...

原创 程序员的自我进化:共享经济新模式——共享员工

今天和大家聊聊在本次疫情之后,行业内催生的一种新的共享经济模式,也就是共享员工。乍一看,好像没什么,不就是A公司的员工通过借调或者外包的方式到B公司去上班,但是背后却凸显出了疫情危机之下行业用工、企业跨界合作的必要性和灵活性。 背景 受武汉疫情的影响,大多数行业都出现了停滞,尤其是餐饮、旅游、...

2020-02-17 16:39:51 2146 0

原创 程序员的自我进化:2020改变自己、提升认知

我希望,每年我都能在自己的空间写上几篇文章,回味过去、思考当下和畅想未来。我不准备把这些文章发在其他的自媒体上,远离喧闹,不想过分和嘈杂的世界对话,写这篇文章的时候,是我心最安静的时候,我在和自己对话。 外面疫情的消息就如同这病毒还在肆无忌惮的传播着,本来定的元宵节之后返京,现在看来不能如愿以偿了...

2020-02-05 14:46:31 1563 0

原创 程序员的自我进化:互联网公司套路多,如何避免自己被无偿辞退?

从去年到今年,在裁员潮背景下,身边很多朋友都在抱怨被辞退。虽然在抱怨,但是他们的心情却不一样,有人拿到合法的补偿之后,发几声牢骚后便能迅速调整心情并投入到开始下一份工作的计划中,这当然是好事;但是也有人莫名其妙被公司套路辞退后拿不到补偿而闷闷不乐一阵子,虽然说作为高薪的程序员不在意那点补偿,但是如...

2019-07-24 21:39:04 1160 5

原创 “git pull”如何强制覆盖本地文件?

git pull 强制覆盖本地的代码方式,下面是正确的方法: git fetch --all 然后,你有两个选择: git reset --hard origin/master 或者如果你在其他分支上: git reset --hard origin/<branch_...

2019-02-25 19:41:02 14576 0

原创 linux下vim编辑器快速掌握方法

学习vim时,没有比vimtutor更好的入门教材了,输入vimtutor命令后剩下的就是跟着说明操作,整个过程不需要死记硬背,它会非常应景地告诉你应该怎么使用vim,并且全程给出了模拟演练的环境。本节总结了vimtutor提到的所有vim操作方法。 在linux或者mac命令行输入vimtut...

2019-02-21 22:49:36 960 0

原创 没人告诉你的小工具整理收藏

1. 推荐一个在线流程图工具,还可以团队协同。https://www.processon.com

2019-02-21 18:37:29 472 0

转载 git 图形化操作工具——gitk

原文:https://www.jianshu.com/p/01e4b27bd293

2019-01-16 19:00:12 4253 0

原创 Linux小技巧:后台提交任务与日志保存

前言:先说说自己的情况,从18年9月开始,整个工作环境和生产工具发生了很大的变化,之前工作大部分时间用的是Windows做开发和少数Linux,现在要全部使用mac和公私有云的Linux环境,这种情况下对自己的做事方式、技术要求、技术栈和使用工具都发生了变化。由于之前在Linux上面的积累很少,所...

2019-01-11 08:08:03 2825 0

原创 2019砥砺前行!

告别2018,迎接2019,想想就很激动,而我恰好想的多了点,就越发的激动,一激动,我就觉得应该写点什么。 以我现在的认知,似乎也写不出什么干货,但是还是要不断去寻找和总结,所以,我觉得动动指头,把自己的想法记录下。 下面,我说说自己这几年关注的东西: 1.互联网,其实90后出生时,就已经是一个互...

2019-01-01 00:46:32 2323 2

原创 送人玫瑰,手留余香,如果本博客帮助到你了,帮忙点开本篇投上一票

送人玫瑰,手留余香,如果本博客帮助到您了,帮忙点开本篇,为我投上一票,谢谢,2019年,我们相约,继续加油! 而选择投票的您,也将有机会获得免费开跑车的机会。 请选择第4位候选人:004  Soyoger   投票即可。 投票地址:https://bss.csdn.net/m/topic/b...

2018-12-31 17:51:59 601 1

转载 命令行下jq才是JSON 处理利器呀

jq 简介 JSON 是一种轻量级的数据交换格式。其采用完全独立于语言的文本格式,具有方便人阅读和编写,同时也易于机器的解析和生成。这些特性决定了 JSON 格式越来越广泛的应用于现代的各种系统中。作为系统管理员,在日常的工作中无论是编辑配置文件或者通过 http 请求查询信息,我们都不可避免的...

2018-12-26 21:30:27 1095 0

原创 mac下kafka环境搭建 测试

kafka介绍:https://blog.csdn.net/see_you_see_me/article/details/78468108 1、安装工具brew install kafka 会自动安装依赖zookeeper 2、安装配置文件位置 /usr/local/etc/kafka|zoo...

2018-11-29 20:47:10 476 3

原创 hive lateral view 与 explode详解

Hive 中的复合数据结构简介以及一些函数的用法说明 hive lateral view 与 explode详解

2018-11-20 20:41:38 1574 0

原创 python单元测试

python中的单元测试,主要有3种方式: 1.unittest 2.nose(nose2) 3.pytest 关于unittest的使用,非常简单,继承TeseCase: https://docs.python.org/2/library/unittest.html#unittest....

2018-11-15 17:45:37 1088 1

原创 写在学前--高级架构师之路

做为一个3年的程序员,用Java到Python,从Web开发到大数据开发、数据挖掘、NLP的技术都在学习,但是零碎的知识点,无法构建起一个知识体系,这是为什么呢? 首先,现在公司的岗位配置非常细化,每个人就负责那么一小部分,做好自己的就好,其他的不要求,更不会强求,所以大多数时候要看自己。 从...

2018-11-08 13:54:05 629 0

转载 hive几种执行sql的方式总结

在命令行界面下,我们来看看hive sql的几种执行方式: root@hadoop-senior hive-0.13.1]$ bin/hive -help usage: hive -d, --define <key=value>         Variable su...

2018-11-06 14:34:41 4008 0

转载 史上最强的融资方案商业计划书

史上最强的融资方案商业计划书 资本时代:领先一步等于领先一路,领先一年等于领先一个时代! 这个问题需要从企业发展过程中的融资谈起,企业要获得发展就一定要有大量资金的支持才行。一般来讲,企业获取资金支持的主要方式: 我们来逐个分析各个投资情况 先看股东,股东是希望开企业赚钱的,是想从企业获利...

2018-10-31 16:37:41 24519 1

原创 基于Fluentd的EFK日志收集方案

关于系统日志收集处理方案,其实有很多种,因为之前使用ES比较多,所以也认为ELK是一个不错的解决方案,ELK(Elasticsearch + Logstash + Kibana)来管理日志。Logstash是一个具有实时渠道能力的数据收集引擎,但和fluentd相比,它在效能上表现略逊一筹,故而逐...

2018-10-24 14:00:24 2045 0

原创 GitLab CI持续集成配置方案

持续集成是一种软件开发实践,即团队开发成员经常集成它们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。 关于持续集成,很不错的文章: 1.https://www.cnblogs.co...

2018-10-20 12:06:55 321 0

原创 使用PDB调试Python程序的完整实践

从Java一路走来,习惯了使用IDEA来调试代码,平时写python也都是使用Jupyter notebook,但是现在逐渐转行到Python开发,突然在linux下进行python代码调试,就会显得有点不习惯了。 下面先从python调试工具PDB开始。 介绍 在开发简单程序的时候,可以通...

2018-10-18 13:20:23 448 0

原创 HBase: Thrift写数据报错——socket.error: [Errno 32] Broken pip

博主用的是python来读写hbase 需要安装 pip install thrift 和 pip install hbase-thrift hbase客户端创建: from thrift import Thrift from thrift.transport import TSocket...

2018-10-17 11:16:12 783 0

原创 各个企业创始人记录--【持续更新中!!!】

各个企业品牌创始人记录: 企业品牌创始人表 企业\品牌 创始人 外婆家 吴国平 迪安诊断 陈海斌 NPC潮流文化 李晨 银泰 沈国军 万通控股 冯仑          ...

2018-10-12 14:01:00 1043 0

原创 Python打包分发工具setuptools简介

Python打包分发工具setuptools 通过这个工具,可以打包安装插件,并且还可以发布到PyPI上面,具体参考: 1.http://python.jobbole.com/87240/ 2.http://python.jobbole.com/86443/?utm_source=blog....

2018-10-10 20:15:35 305 0

原创 程序员的自我进化:技术的广度与深度怎么权衡

程序员的自我进化:技术的广度与深度怎么权衡 工作2-3年了,如果你已经走在自己喜欢和感兴趣的技术路上,那么首先恭喜你了;如果你还在技术圈迷茫和困惑,也请保持微笑。无论你属于那种情况,对于绝大多数人来说,不妨停下脚步来看看,我们应该如何看待技术。我们都希望自己的技术既有广度又有深度,但事实上,鱼与...

2018-09-23 10:23:13 4465 0

原创 常用的python命令行解析库

常用的python命令行解析库,这儿介绍3种: 1.argparse 2.click 3.fire   argparse是python自带的模块,要经历解析器初始化、参数定义、解析一套流程,使用起来有些繁琐。 一篇argparse使用的文章:https://www.cnblogs.co...

2018-09-17 19:28:25 961 0

原创 win10安装docker

近一年来,有一个直观的感觉,数据领域围绕大数据进行计算分析和人工智能算法进行挖掘和建模应用,而在程序架构上,好多企业在往微服务方向走,微服务越来火,比如Spring-boot、Spring-cloud等,而在服务部署上,传统都是采用tomcat、weblogic这种单体部署方式,常常一个应用很大,...

2018-09-15 14:24:11 441 0

转载 Hive之数据倾斜的原因和解决方法

数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低...

2018-09-02 22:22:44 3803 0

原创 主成分分析PCA

简单介绍下PCA的应用 PCA和线性回归的区别: PCA的目的和优势:    

2018-08-15 17:59:24 1282 0

原创 视野

在这个信息时代,没有人的视野会受阻,人们最缺乏的并不是视野的广度,而是视野的深度。 事实上,我觉得可以粗略的把人分为两类:追求低成本的快乐的人,追求深层次体验的人。 如果只是想想,当然每个人都会说”我要过丰富的生活,有极致的体验“。但落实到你需要付出多少代价层面,其实大多数人的选择,是在“低成...

2018-08-13 13:57:25 354 0

原创 机器学习的理论知识点总结

最近一边看书,一边梳理机器学习的知识点: 1. 线性回归 2.线性回归的损失函数(误差的平方和) 3. 最小二乘法(手推导) 4.批量梯度下降法(学习率大小问题) 5.放缩scaling对梯度下降的影响 6.多元线性回归 7.逻辑斯蒂回归-二元分类 8.LR代价函数 9.神经网络...

2018-08-03 14:56:15 1409 0

原创 using a dict on a Series for aggregation is deprecated and will be removed in a future version

python的pandas中,在统计聚合的时候,版本问题,提示不支持字典格式了。 比如,下面代码这样改就可以了。 words_stat = words_df.groupby(by=['segment'])['segment'].agg({&qu...

2018-08-01 13:38:20 4273 3

原创 Python爬取B站弹幕的思路和流程

做nlp项目,除了各大电商评论和微博数据,弹幕分析对于舆论和该视频的推广都是有帮助的,下面主要说说这么从B站爬取弹幕。 过程很简单,我们来看看: 1. 首先,bilibili的弹幕是在xml文件里,每个视频都有其对应的cid和aid,我们取到cid中的数字放入http://comment.bi...

2018-07-30 17:42:17 6471 9

原创 Python中的Nonetype类型怎么判断?

今天写了个爬虫,在抓取数据的时候遇到一个问题,我觉得如果不注意,这个问题很容易被忽略,所以特意在博客记录下: 问题描述: 比如,我在提取信息时,这样判断类型: type(answers[0].find_all("table")[0].string) 得到的结果为...

2018-07-24 15:24:11 48470 3

原创 只有战术没有战略,往往成不了大气候。

今天看文章,看到这句话,真心觉得不错!!! 周鸿祎曾说过: 只有战术没有战略,往往成不了大气候。 项羽赢了刘邦无数场,战术上的优势无可比拟,却在战略上一败涂地,最后输了一场便只能霸王别姬、乌江自刎,此为明证,亦是警钟。 作为一个公司的创始人,如果你想成功,想要打造一家百亿美元的独角兽,实现...

2018-07-19 14:51:33 836 3

转载 Markdown中数学公式整理

https://blog.csdn.net/zdk930519/article/details/54137476

2018-07-09 18:34:59 643 0

原创 程序员的自我进化:学习之道,如何更有效的学习

不得不感叹,计算机技术更新迭代的速度太快了,作为程序员每天除了面对工作,就要学习新技术,笔者自己也不例外,近三年来,笔者自己的感觉是一直在为技术疲于奔命,直到现在,也不敢放缓脚步。学习对于程序员来说太重要了,就像每天必须吃饭一样,程序员每天必须抽出一定时间学习新技术,避免被淘汰。 然而,目前的计...

2018-07-06 13:41:53 8123 10

原创 金融反欺诈和金融构建信用评分或者金融预测特征抽取案例

之前在微信朋友圈读到过这样一篇文章,施一公:“我国的最大危机,是所有精英都想干金融!”,当然,笔者是非常赞同的,因为和钱距离越近的地方,越能赚到更多的钱,所以从个人或者企业的角度出发,选择金融是正确的方向,就连程序员也不例外。暂且不说这个危机是什么原因造成的,或体制或为了生存。作为程序员既然选择了...

2018-06-30 10:22:13 2979 4

原创 Hive SQL优化之 Count Distinct

说实话,也是从今年4月份开始,笔者接触了大量写SQL的工作,才开始慢慢理解SQL的优化。在之前,公司的大数据平台只有十几个节点,随着业务快速发展,每天都会产生上百万条的数据,所以每天使用Hive写SQL发现执行时间都在变慢,但是以结果为目的的工作,在不追求高效的情况下,没人有去深入思考如何改变这种...

2018-06-22 16:16:54 2357 0

原创 中文自然语言处理可能是 NLP 中最难的?

现如今,在更多情况下,我们通过传感器和字节来与机器获得交流,而不是依靠交换情感,那如何让超级智能机器能够和人类正常交流沟通呢?在人工智能背景技术下,自然语言处理(NLP)技术被越来越多的人看好,并受到重视。其中,以微软小冰为代表的聊天机器人,如今却成了网红,迅速刷爆了微信和朋友圈,一个17岁纯情少...

2018-06-22 13:22:21 35094 7

原创 mysql中日期加减和hive中日期加减区别

先来看看mysql中日期的加减:MySQL 为日期增加一个时间间隔:date_add()now()       //now函数为获取当前时间select date_add(now(), interval 1 day); - 加1天select date_add(now(), interval 1 ...

2018-06-21 15:27:22 11546 0

提示
确定要删除当前文章?
取消 删除