分析
J小白Y
一只想学习更多知识的小白,研究方向:大数据、人工智能(推荐算法、NLP等)!目标:每天进步一点点~
生活是你和自己竞争,而不是别人!
展开
-
信息论之香农熵(又名信息熵)最简单-形象讲解
1948 年,香农提出了“信息熵”(shāng) 的概念,解决了对信息的量化度量问题。首先,先介绍一下克劳德 • 香农(Claude Shannon, 1916-2001) 香农生于美国密歇根州,本科毕业于“美国大学之母”密歇根大学。他儿时崇拜的英雄人物是大名鼎鼎的、造福全人类的美国大发明家托马斯 • 爱迪生(Thomas Alva Edison, 1847-1931),...原创 2020-03-14 14:42:11 · 15387 阅读 · 1 评论 -
【Python】内置函数eval的用法(及str转为dict的三种方式:eval/json/exec)
Pythoneval() 函数作用:eval() 函数用来执行一个字符串表达式,并返回表达式的值。注意:计算指定表达式的值。也就是说它要执行的python代码只能是单个表达式(注意eval不支持任何形式的赋值操作),而不能是复杂的代码逻辑。语法:eval(expression[, globals[, locals]])参数:expression -- 表达式。globals --...原创 2019-08-06 08:45:25 · 7885 阅读 · 2 评论 -
【Python】for循环--内置函数range和enumerate的用法
在使用Python进行数据分析时,不可避免的要进行for loop,小白之前到这种时候一直都是用range(len())的组合进行遍历,后来发现,Python内置函数enumerate也非常方便,下面就总结一下两种方法的用法:1.Python range() 函数用法语法:range(start, stop[, step])参数说明:start:下标起始值,默认是从 0...原创 2019-08-06 08:45:49 · 2205 阅读 · 0 评论 -
【Python】内置函数exec的内置语句用法(exec高阶用法)
小白在之前文章中有分享过exec的使用方式,这篇文章中,小白总结一下exec的高阶用法。先看一个遍历:for i in range(10): print ("the result of i is: %d" % (i))很明显结果为:the result of i is: 0the result of i is: 1the result of i is: ...原创 2019-08-07 09:29:52 · 1386 阅读 · 0 评论 -
【Python】class中init函数、self参数详解
小白在刚开始用class来创建对象的时候,不理解为啥class中的方法都要先声明一个__init__方法,而且方法里都有self这个参数,后来,小白做了一个试验,发现这两个小的知识点有大的用处。 首先,init方法前面带有两个横杠,而不是一个,小白学习之初用一个横线遇到报错的情况。在Python中,遇到此种形式开头的函数,就是私有方法,不可以被外面的类调用。这个方法可以...原创 2019-08-08 19:22:49 · 3449 阅读 · 0 评论 -
【Python】DataFrame输出为csv\txt\xlsx文件
相信大家在用Python做完数据处理以及分析之后,大多数情况下需要导出到csv等文件中,方便再做其他展示操作。小白也是一步步经历需要转到csv、txt等文件中,以导入到HIVE表中,做后续的操作。这里就来总结一下,Pyhton的DataFrame文件导出操作~1.DataFrame导出到csv文件其中:index是否要索引,header是否要列名,True就是需要outp...原创 2019-08-15 20:43:40 · 97155 阅读 · 13 评论 -
【Python】DataFrame遍历
在数据分析的过程中,往往需要用到DataFrame的类型,因为这个类型就像EXCEL表格一样,便于我们个中连接、计算、统计等操作。在数据分析的过程中,避免不了的要对数据进行遍历,那么,DataFrame如何遍历呢?之前,小白每次使用时都是Google或百度,想想,还是总结一下~ 小白经常用到的有三种方式,如下:首先,先读入一个DataFrameimport pa...原创 2019-08-16 19:06:39 · 45138 阅读 · 1 评论 -
【Python】字典遍历(dict遍历)
字典也是我们在做数据分析时经常用到的类型,之前小白有总结过DataFrame的遍历,这篇博文,小白整理了自己遍历字典时的几种方法。 众所周知,字典是键值对的组合,那么对字典的遍历就自然而然的包含了对键和值的遍历,下面依次介绍遍历键、值,键值三种情况的遍历。首先,创建一个字典,以便下面的遍历。dict = { '小明':129, '小兰':148...原创 2019-08-16 20:06:12 · 170616 阅读 · 3 评论 -
【Python】List遍历
List也是Python数据分析时经常用到的一种存储类型,这篇博文小白主要分享List的遍历。首先,生成一个List:list = [111,222,333,444]下面,用几种方法来遍历该List:(1)小白首先使用我们最常循环时用到的range函数来遍历list,从结果可以看到将索引和值都输出,其中索引从0开始。(2)对于function2,可以看到小白贴出了...原创 2019-08-16 20:21:52 · 4473 阅读 · 0 评论 -
【Python】set遍历
set是一组数,无序,内容不能重复,通过调用set()方法创建,那么如何对set集合进行遍历呢?1.简单的set:s1 = set(['111', '222', '333'])对于s1,是一组数,有几种方法可以遍历:function1:直接用in的方式遍历set集合。function2:用iter()迭代器来遍历集合看到前两种方法可能有人就有疑问了,为啥和上面写...原创 2019-08-16 20:51:29 · 12574 阅读 · 0 评论 -
【Python】Tuple遍历
小白之前博文已经写了Dtaframe、set等的遍历,这篇博文来总结下遍历Tuple,Tuple一旦创建后,元素不可变,遍历和List其实是一样的,下面来看下吧~ 首先,创建一个tuple:#create a tupletuple = ('111','222','333') 接下来,用几种方式来遍历Tuple:对于方法1、2、3、4都...原创 2019-08-17 15:38:38 · 2984 阅读 · 0 评论 -
【Python】List的extend和append详解
在数据分析时,小白经常用到extend和append函数,但是经常两种搞不清楚,每次都需要试一下,可能大家也有类似的疑问,总结一下,加深对两个函数的理解。 extend和append函数是List列表的两种对列表的扩展函数,先来看下,最基本的使用List添加List首先创建两个List:L1 = ['aaa','bbb','ccc']L2 = ['ddd','...原创 2019-08-17 16:21:39 · 2902 阅读 · 1 评论 -
【Python】实现箱线图异常值检测
小白在之前文章中已经阐述了箱线图的原理,这里小白就把自己在工作中做的一个自动化异常值检测拿来分享一下~原理请看这篇博文(https://blog.csdn.net/Jarry_cm/article/details/95473014) 小白根据箱线图的原理,分析工作中的情况,比如说酒店每天的浏览量异常值检测,那么就可以根据历史30天或者更多天的数据来检测,昨天的浏览量是否...原创 2019-07-18 20:42:58 · 7291 阅读 · 1 评论 -
【Python】数据处理之One-Hot编码
在我们数据分析、建模的时候,首先要处理的就是各种数据,数据的类型也不仅仅局限于连续型数值。比如,性别、城市名等等此类的指标也是很多的。这种类型, 它是不具备序列性、也不能比较大小的,如果这个时候简单的用数字来替换,那么就给这种赋予了大小的属性,这就会影响权重矩阵的计算。这个时候,就可以用One-Hot编码(也有人称独热编码)这种特殊的编码方式了。 举例解释下为什么直...原创 2019-07-18 20:42:24 · 7281 阅读 · 0 评论 -
【NLP】Python之结巴分词
小白在Long Long ago研究过一段时间的结巴分词,当时是因为工作需要,很长时间过去了,有一点点生疏,现把之前学习的笔记整理一下,以便以后的使用,也分享一下~ 首先,需要先安装结巴分词包。使用Anaconda prompt进行安装pip install jiebaspyder安装第三方包可参考小白之前的博客哦(https://blog.csdn.net...原创 2019-06-15 14:28:36 · 1728 阅读 · 0 评论 -
【Python】如何用hive调度堡垒机上的python脚本
工作中,如果我们本地要操作的数据量大,那么主机是跑不起来python脚本的,这个时候,就要用到服务器(也叫堡垒机)了。那么如何用HIVE调用堡垒机上的python脚本呢?今天小白就总结一下步骤和一些注意事项~1.首先将Python脚本上传到堡垒机上2.上传后,在HIVE中编写shell JOB#这里设置地址等变量,可以重复使用file_path="/home/chen_l...原创 2019-06-22 19:38:28 · 1644 阅读 · 0 评论 -
【Python】将数据传入list中时,如何进行数据类型转换(map,int()用法)
相信大家在使用Python时,都遇到过数据类型的问题,数据类型不一致,那么就会导致输出结果错误。那么如何将一个数据读入到list中时,同时进行数据类型转换呢? 比如有下面这个数据,那么需要读入前三列,并且读入类型为int,怎么做呢?a=['1','2','3','4','5']方法一b = list(map(int,a[0:3]))方法二b = [in...原创 2019-06-22 19:37:54 · 9941 阅读 · 0 评论 -
【Python】Jupyter中.ipynb如何转换为.py文件
众所周知,Jupyter Notebooks 允许数据科学家创建和共享他们的文档,从开发代码到出分析报告都可以。帮助数据科学家简化工作流程。由于这些以及你将在下面看到的原因,Jupyter Notebooks 成了数据科学家最常用的工具之一。 在jupyter notebook中,因为解析文件的方式是基于json的,所以默认保存的文件格式是.ipynb。而.ipynb文...原创 2019-06-22 20:14:08 · 46056 阅读 · 4 评论 -
【Python】如何查看内置函数的用法及其源码?
在用Python进行各种分析的时候,我们会用到各种各样的函数,比如,我们用SQL时,经常使用join、max等各种函数,那么想看Python是否有这个函数,这个时候可能大部分人会百度,那么如何不使用百度,而用Python本身来查找函数,学习函数的用法呢?下面,小白就总结一下自己一些经历~ 比如,我们在用math模块,但是不知道这个模块下是否有自己常用的函数,那么如何做呢...原创 2019-06-22 21:03:40 · 43098 阅读 · 17 评论 -
【Python】Numpy之各种创建array的方法及Numpy中的函数使用
学习Python的童鞋,对numpy都不陌生,小白最近学习了一些Numpy的方法,发现Numpy真的很强大。Numpy:本质的数字化的python,当然也可以存放string类型的数据。如何创建array?可以用tuple也可用list.其中,dtype用来指定数据类型,int32指,存放int类型最高32位,不过也可以去掉32,直接写int。数据类型float都可以定义数据的长度,也...原创 2019-07-03 09:24:22 · 28889 阅读 · 4 评论 -
【Python】Numpy之矩阵的相关计算及矩阵的选取与切割
Numpy有很多矩阵运算的方法,小白总结了一些常用和认为在算法中用到的方法~基础操作:首先创建两个矩阵A = np.array([[1,2],[1,2]])B = np.array([[2,4],[5,5]])1.矩阵对应位置的元素相加#矩阵同位置元素相加np.add(A,B)#方法1A+B #方法2结果都为:array([[3, 6], ...原创 2019-07-04 09:30:46 · 7070 阅读 · 0 评论 -
【Python】Numpy之排序(sort)、去重函数(unique)、查找函数(in1d)
在各种数据分析时,排序和去重是用的最多 的两个方法,小白最近也经常用到,这里做一个总结。首先创造一个array:a=np.random.random((1,10))排序函数sort用法:sort(axis=-1, kind='quicksort', order=None)返回排序的结果看下官方文档对各个参数的解释:axis:排序沿数组的(轴)方向,0表示按...原创 2019-07-05 09:21:28 · 6615 阅读 · 0 评论 -
箱线图(Boxplot)
箱线图(Boxplot)也称箱须图(Box-whisker Plot),箱形图等,1977年由美国著名统计学家约翰·图基(John Tukey)发明,是一种用作显示一组数据分散情况资料的统计图,利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。它...原创 2019-07-12 18:52:45 · 16765 阅读 · 0 评论 -
【Python】Anaconda Prompt安装Tensorflow详解(windows7版)
首先,小白的Anaconda的Python3.6.4版本的,电脑是64位,所以整个安装过程是基于此环境。接下来就开始安装Tensorflow啦~第一步,安装Tensorflow需要从Anaconda仓库中下载,默认情况下都是国外镜像地址,那么如何用国内清华的镜像呢?往下看:打开Anaconda中的Anaconda Prompt,然后输入:conda config --...原创 2019-07-12 18:52:25 · 3378 阅读 · 1 评论 -
三门问题详解
三门问题也称为蒙提霍尔问题、蒙特霍问题或蒙提霍尔悖论,出自美国的电视游戏节目Let's来自 Craig F. Whitaker 于1990年寄给《展示杂志》(Parade Magazine)玛丽莲·沃斯·莎凡特(Marilyn vos Savant)专栏的信件:“假设你正在参加一个游戏节目,你被要求在三扇门中选择一扇:其中一扇后面有一辆车;其余两扇后面则是山羊。你选择了一道门,假...原创 2019-07-18 20:40:55 · 9179 阅读 · 0 评论 -
TGI指数
TGI指数(Target Group Index):又叫“目标群体指数”,反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。其计算方法是: TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*100TGI指数表征不同特征用户关注问题的差异情况,其中TGI指数...原创 2019-06-03 09:24:18 · 11265 阅读 · 3 评论