春华秋实

本博客所有内容仅供学习,不允许商用,如有侵权,请联系博主删除,谢谢。...

排序:
默认
按更新时间
按访问量

各个企业创始人记录--【持续更新中!!!】

各个企业品牌创始人记录: 企业品牌创始人表 企业\品牌 创始人 外婆家 吴国平 迪安诊断 陈海斌 NPC潮流文化 李晨 银泰 沈国军 万通控股 冯仑          ...

2018-10-12 14:01:00

阅读数:27

评论数:0

程序员的自我进化:技术的广度与深度怎么权衡

程序员的自我进化:技术的广度与深度怎么权衡 工作2-3年了,如果你已经走在自己喜欢和感兴趣的技术路上,那么首先恭喜你了;如果你还在技术圈迷茫和困惑,也请保持微笑。无论你属于那种情况,对于绝大多数人来说,不妨停下脚步来看看,我们应该如何看待技术。我们都希望自己的技术既有广度又有深度,但事实上,鱼与...

2018-09-23 10:23:13

阅读数:91

评论数:0

Python打包分发工具setuptools简介

Python打包分发工具setuptools 通过这个工具,可以打包安装插件,并且还可以发布到PyPI上面,具体参考: 1.http://python.jobbole.com/87240/ 2.http://python.jobbole.com/86443/?utm_source=blog....

2018-10-10 20:15:35

阅读数:29

评论数:0

常用的python命令行解析库

常用的python命令行解析库,这儿介绍3种: 1.argparse 2.click 3.fire   argparse是python自带的模块,要经历解析器初始化、参数定义、解析一套流程,使用起来有些繁琐。 一篇argparse使用的文章:https://www.cnblogs.co...

2018-09-17 19:28:25

阅读数:58

评论数:0

win10安装docker

近一年来,有一个直观的感觉,数据领域围绕大数据进行计算分析和人工智能算法进行挖掘和建模应用,而在程序架构上,好多企业在往微服务方向走,微服务越来火,比如Spring-boot、Spring-cloud等,而在服务部署上,传统都是采用tomcat、weblogic这种单体部署方式,常常一个应用很大,...

2018-09-15 14:24:11

阅读数:68

评论数:0

Hive之数据倾斜的原因和解决方法

数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低...

2018-09-02 22:22:44

阅读数:57

评论数:0

主成分分析PCA

简单介绍下PCA的应用 PCA和线性回归的区别: PCA的目的和优势:    

2018-08-15 17:59:24

阅读数:249

评论数:0

视野

在这个信息时代,没有人的视野会受阻,人们最缺乏的并不是视野的广度,而是视野的深度。 事实上,我觉得可以粗略的把人分为两类:追求低成本的快乐的人,追求深层次体验的人。 如果只是想想,当然每个人都会说”我要过丰富的生活,有极致的体验“。但落实到你需要付出多少代价层面,其实大多数人的选择,是在“低成...

2018-08-13 13:57:25

阅读数:196

评论数:0

机器学习的理论知识点总结

最近一边看书,一边梳理机器学习的知识点: 1. 线性回归 2.线性回归的损失函数(误差的平方和) 3. 最小二乘法(手推导) 4.批量梯度下降法(学习率大小问题) 5.放缩scaling对梯度下降的影响 6.多元线性回归 7.逻辑斯蒂回归-二元分类 8.LR代价函数 9.神经网络...

2018-08-03 14:56:15

阅读数:304

评论数:0

using a dict on a Series for aggregation is deprecated and will be removed in a future version

python的pandas中,在统计聚合的时候,版本问题,提示不支持字典格式了。 比如,下面代码这样改就可以了。 words_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数":...

2018-08-01 13:38:20

阅读数:413

评论数:3

Python爬取B站弹幕的思路和流程

做nlp项目,除了各大电商评论和微博数据,弹幕分析对于舆论和该视频的推广都是有帮助的,下面主要说说这么从B站爬取弹幕。 过程很简单,我们来看看: 1. 首先,bilibili的弹幕是在xml文件里,每个视频都有其对应的cid和aid,我们取到cid中的数字放入http://comment.bi...

2018-07-30 17:42:17

阅读数:529

评论数:0

Python中的Nonetype类型怎么判断?

今天写了个爬虫,在抓取数据的时候遇到一个问题,我觉得如果不注意,这个问题很容易被忽略,所以特意在博客记录下: 问题描述: 比如,我在提取信息时,这样判断类型: type(answers[0].find_all("table")[0].string) ...

2018-07-24 15:24:11

阅读数:926

评论数:0

只有战术没有战略,往往成不了大气候。

今天看文章,看到这句话,真心觉得不错!!! 周鸿祎曾说过: 只有战术没有战略,往往成不了大气候。 项羽赢了刘邦无数场,战术上的优势无可比拟,却在战略上一败涂地,最后输了一场便只能霸王别姬、乌江自刎,此为明证,亦是警钟。 作为一个公司的创始人,如果你想成功,想要打造一家百亿美元的独角兽,实现...

2018-07-19 14:51:33

阅读数:382

评论数:3

Markdown中数学公式整理

https://blog.csdn.net/zdk930519/article/details/54137476

2018-07-09 18:34:59

阅读数:418

评论数:0

程序员的自我进化:学习之道,如何更有效的学习

不得不感叹,计算机技术更新迭代的速度太快了,作为程序员每天除了面对工作,就要学习新技术,笔者自己也不例外,近三年来,笔者自己的感觉是一直在为技术疲于奔命,直到现在,也不敢放缓脚步。学习对于程序员来说太重要了,就像每天必须吃饭一样,程序员每天必须抽出一定时间学习新技术,避免被淘汰。 然而,目前的计...

2018-07-06 13:41:53

阅读数:1144

评论数:5

金融反欺诈和金融构建信用评分或者金融预测特征抽取案例

之前在微信朋友圈读到过这样一篇文章,施一公:“我国的最大危机,是所有精英都想干金融!”,当然,笔者是非常赞同的,因为和钱距离越近的地方,越能赚到更多的钱,所以从个人或者企业的角度出发,选择金融是正确的方向,就连程序员也不例外。暂且不说这个危机是什么原因造成的,或体制或为了生存。作为程序员既然选择了...

2018-06-30 10:22:13

阅读数:1055

评论数:3

Hive SQL优化之 Count Distinct

说实话,也是从今年4月份开始,笔者接触了大量写SQL的工作,才开始慢慢理解SQL的优化。在之前,公司的大数据平台只有十几个节点,随着业务快速发展,每天都会产生上百万条的数据,所以每天使用Hive写SQL发现执行时间都在变慢,但是以结果为目的的工作,在不追求高效的情况下,没人有去深入思考如何改变这种...

2018-06-22 16:16:54

阅读数:603

评论数:1

中文自然语言处理可能是 NLP 中最难的?

现如今,在更多情况下,我们通过传感器和字节来与机器获得交流,而不是依靠交换情感,那如何让超级智能机器能够和人类正常交流沟通呢?在人工智能背景技术下,自然语言处理(NLP)技术被越来越多的人看好,并受到重视。其中,以微软小冰为代表的聊天机器人,如今却成了网红,迅速刷爆了微信和朋友圈,一个17岁纯情少...

2018-06-22 13:22:21

阅读数:12334

评论数:7

mysql中日期加减和hive中日期加减区别

先来看看mysql中日期的加减:MySQL 为日期增加一个时间间隔:date_add()now()       //now函数为获取当前时间select date_add(now(), interval 1 day); - 加1天select date_add(now(), interval 1 ...

2018-06-21 15:27:22

阅读数:1523

评论数:0

mysql中ifnull和hive中if函数的转换

先说说,在mysql中,ifnull函数的用法,其表达式如下:IFNULL(expr1,expr2)如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被使用的上下文环境。举个应用场景,比如某一个字段定义为i...

2018-06-21 14:51:34

阅读数:965

评论数:0

提示
确定要删除当前文章?
取消 删除