自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 【Python】如何查看内置函数的用法及其源码?

在用Python进行各种分析的时候,我们会用到各种各样的函数,比如,我们用SQL时,经常使用join、max等各种函数,那么想看Python是否有这个函数,这个时候可能大部分人会百度,那么如何不使用百度,而用Python本身来查找函数,学习函数的用法呢?下面,小白就总结一下自己一些经历~ 比如,我们在用math模块,但是不知道这个模块下是否有自己常用的函数,那么如何做呢...

2019-06-22 21:03:40 42018 17

原创 【Python】Jupyter中.ipynb如何转换为.py文件

众所周知,Jupyter Notebooks 允许数据科学家创建和共享他们的文档,从开发代码到出分析报告都可以。帮助数据科学家简化工作流程。由于这些以及你将在下面看到的原因,Jupyter Notebooks 成了数据科学家最常用的工具之一。 在jupyter notebook中,因为解析文件的方式是基于json的,所以默认保存的文件格式是.ipynb。而.ipynb文...

2019-06-22 20:14:08 38883 4

原创 【数据库】HIVE SQL:直接建表,like建表,as 建表小结

工作中,根据场景不同,可能建表方式不同,有时候用like、as方式建表会达到事半功倍的效果,下面是小白总结的三种创建表的方式。1、使用create命令创建一个新表create命令建表,参数不同,也有些许的区别,下面来看一下,创建一个带有分区的表,分区按天,取名为d可以看到分区是用partitioned by方式,指定分区的参数,另外下面的stored as是用来指定存储的...

2019-06-22 19:38:59 5691

原创 【Python】Windows环境下安装graphviz和pygraphviz

一、安装graphviz1.下载匹配电脑的版本 安装graphviz可视化工具网址:http://www.graphviz.org/download/2.双击下载的msi文件,一路next(记住安装路径,后面配置环境变量会用到路径信息),安装完成之后,会在windows开始菜单创建快捷信息,默认快捷方式不放在桌面3.配置环境变量将graphviz安装目录下的bin...

2019-06-22 19:38:46 5827 4

原创 【Python】如何用hive调度堡垒机上的python脚本

工作中,如果我们本地要操作的数据量大,那么主机是跑不起来python脚本的,这个时候,就要用到服务器(也叫堡垒机)了。那么如何用HIVE调用堡垒机上的python脚本呢?今天小白就总结一下步骤和一些注意事项~1.首先将Python脚本上传到堡垒机上2.上传后,在HIVE中编写shell JOB#这里设置地址等变量,可以重复使用file_path="/home/chen_l...

2019-06-22 19:38:28 1607

原创 【Python】将数据传入list中时,如何进行数据类型转换(map,int()用法)

相信大家在使用Python时,都遇到过数据类型的问题,数据类型不一致,那么就会导致输出结果错误。那么如何将一个数据读入到list中时,同时进行数据类型转换呢? 比如有下面这个数据,那么需要读入前三列,并且读入类型为int,怎么做呢?a=['1','2','3','4','5']方法一b = list(map(int,a[0:3]))方法二b = [in...

2019-06-22 19:37:54 9825

原创 【大数据】Spark的shuffle过程(Map Reduse的shuffle过程)及数据倾斜的原因及处理

小白最近很长一段时间,都遇到了大数据量,JOB运行慢的问题,看一些优化方法的时候经常提起spark的SQL语句执行过程,对于没有认真研究过SPARK的运行过程的小白来说,看的一知半解,为了打破这个情况,小白认真学习了一下底层,终于清晰了一些,下面小白就总结一下(话术教小白,没有那么的专业,见谅哦) 一般情况下,我们只是自己写了一段SQL,放在服务器上,他就自动运行...

2019-06-15 14:29:46 575 1

原创 【Python】报错:name 'reload' is not defined

小白拿起自己很久前在2.7版本的一段代码在3.6版本中执行时,遇到这个报错,想来应该是版本的问题,3.6不支持该语法了,后来发现,确实是这样,那么需要完成同样的事情,想以UDF-8进行编码,在两个版本如何做呢?在python2.7中:需要重新加载sys模块,并设置默认编码utf-8import sysreload(sys)sys.setdefaultencoding(...

2019-06-15 14:28:57 1788

原创 【NLP】Python之结巴分词

小白在Long Long ago研究过一段时间的结巴分词,当时是因为工作需要,很长时间过去了,有一点点生疏,现把之前学习的笔记整理一下,以便以后的使用,也分享一下~ 首先,需要先安装结巴分词包。使用Anaconda prompt进行安装pip install jiebaspyder安装第三方包可参考小白之前的博客哦(https://blog.csdn.net...

2019-06-15 14:28:36 1712

原创 【数据库】Navicat编写MySQL自定义函数详解

小白最近迷上了MySQL,由于工作中大部分用HIVE,很少用到MySQL,但是后来发现MySQL可以处理递归等可循环的功能,所以,就安装了一个本地的MySQL进行学习,以下是小白对自定义函数的尝试。首先来说一下,自定义函数的优点:调用函数可以简化代码,减少工作量,减少数据在数据库和应用服务器上的传输,提高数据处理的效率。自定义函数语法:#创建一个函数CREATE F...

2019-06-09 10:59:04 14959 6

原创 TGI指数

TGI指数(Target Group Index):又叫“目标群体指数”,反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。其计算方法是: TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*100TGI指数表征不同特征用户关注问题的差异情况,其中TGI指数...

2019-06-03 09:24:18 10929 3

原创 【数据库】Windows下如何安装MySql

最近看到很多关于MySql相关的语法,小白也想学习一些MySQL的存储过程的写法,因此就想安装MySQL,过程中遇到过一些问题,这里记录下来~第一步:下载首先,去官网下载匹配电脑的MySQL版本,网址如下:https://www.mysql.com/然后,进入到下载的页面:1)进入下载页2)找到红框中位置3)点击下载4)进入到下载页,在页面中...

2019-06-03 09:24:10 2280 2

原创 【数据库】Navicat for MySQL连接 Mysql 8.0.11 出现1251- Client does not support authentication protocol错误

小白在安装好MySQL之后,使用Navicat for MySQL工具时,又遇到了连接不上的问题,查了很多资料,最后才得以解决,这里小白做一个总结。 在连接测试时,一直报错,如下图: 当时很方,这是什么鬼,度娘了N个回答,有的说是版本不匹配,小白去吭哧吭哧下5.7的版本,MySQL官网一看,又没有64bit版本,天啦撸,又去各种找资源。后来就想,也许不...

2019-06-03 09:23:58 3180

原创 【数据库】快速启动、关闭MySQL

启动:在电脑的开始中,输入运行,弹出运行的窗口,输入命令,如下图:关闭:在电脑的开始中,输入运行,弹出运行的窗口,输入命令,如下图:...

2019-06-03 09:23:27 529

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除