自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 Python中的数据类型

原文链接:http://www.datastudy.cc/to/89Python中总共有六种数据类型,分别如下:数字(Numbers)字符串(String)列表(List)元组(Tuple)集合(Sets)字典(Dictionaries)数字的种类:整数型(int)浮点型

2016-11-04 11:05:03 944

原创 MySQL 使用 MRG_MyISAM 存储引擎来实现分表

原文链接:http://www.datastudy.cc/to/81MRG_MyISAM存储引擎为MySQL的其中一个存储引擎,使用下面语句察看MYSQL数据库是否支持该存储引擎。MERGE存储引擎,也被认识为MRG_MyISAM引擎,是一个相同的可以被当作一个来用的MyISAM表的集合。“相同”意味着所有表同样的列和索引信息。你不能合并列被以不同顺

2016-11-03 09:48:52 651

原创 MySQL中的数值函数

本文我们来介绍MySQL中常用的数值符号和函数。+加号:mysql> SELECT 3+5;-> 8-减号:mysql> SELECT 3-5;-> -2-一元减号。更换参数符号。mysql> SELECT - 2;-> -2

2016-11-02 09:12:06 2271

原创 pandas中的isin函数详解

原文链接:http://www.datastudy.cc/to/68今天有个同学问到,not in 的逻辑,想用 SQL 的select c_xxx_s from t1 left join t2 on t1.key=t2.key where t2.key is NULL 在 Python 中的逻辑来实现,实现了 left join 了(直接用join方法),但是不知道怎么实现where

2016-11-01 10:34:32 49537

原创 Python如何将百分号的字符转成数字

原文链接:http://www.datastudy.cc/to/63很多时候,我们拿到的报表数据,里面的小数都是带百分号的字符串,不能进行直接的计算,需要对其进行转换,然后再输出。解决方法:from pandas import DataFrame;df = DataFrame({'p_str': ['10.33%','23

2016-10-31 12:10:13 19526

原创 一张图让你详细理解Group By的分组聚合过程

原文链接:http://www.datastudy.cc/to/57Group By分组聚合是我们在使用过程中使用最多的SQL之一(另外一个使用最多的估计就是JOIN了吧),为了让大家详细了解Group By的计算执行过程,我们下面使用一张图来详细讲解一下。我们的数据就是左表,有name和score两列,我们要求每个name下,score

2016-10-29 12:08:50 10982

原创 如何优雅地使用R实现行转列

原文链接:http://www.datastudy.cc/to/51网上有网友问到:在一个文件夹下,收集了几个股票数据的文件,对应的股票名称为第2列,对应的时间为第3列,对应的收盘价为第10列。现在想做到下图所示的效果,也就是行为时间,列为对应的股票的收盘价,如何使用R语言来实现呢?其实非常地简单,这个就是我们《R数据分析实战》(http:/

2016-10-28 09:56:54 9574

原创 如何高效地学习数据结构——Python篇

原文链接:http://www.datastudy.cc/to/42        我们来看看如何高效地学习一门语言的数据结构,今天我们先看Python篇。        所谓数据结构,是指相互之间存在一种或多种特定关系的数据类型的集合。        Python在数据分析领域中,最常用的数据结构,莫过于Da

2016-10-27 10:21:09 3369

原创 Python pandas 数据框的str列内置的方法详解

原文链接:http://www.datastudy.cc/to/27        在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等这种需求,如果掌握str列内置的方法,处理起来会方便很多。        下面我们来详细了解一下,Series类的str自带的方法有哪

2016-10-25 10:31:54 54643 2

原创 如何对数据按某列进行分层处理

原文链接:http://www.datastudy.cc/to/15很多时候,我们拿到的数据,都是汇总的一份数据,例如我们示例中的数据,已经把所有仓库的数据都汇总起来了。但是我们在统计建模的时候,如果想要把他们拆分开来进行处理,那么如何进行分层处理呢?其实非常简单,我们使用split函数即可。split(x, f, drop = FALS

2016-10-24 11:40:54 2618

原创 修改文件编码的方法

很多人都用 MAC,MAC下面,可以直接使用系统自带的 TextEdit 这个文本编辑器,然后直接把文件另存为之后,注意要选择 Unicode(UTF-8)进行把保存即可。

2016-10-22 11:29:19 3855

原创 用Python读红楼梦之——二、词云美化

咱们书接上回,讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了。

2016-07-01 19:02:44 4950

原创 用Python读红楼梦之——一、词云绘制

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,本文是《用Python读红楼梦》系列文章的第一篇,绘制小说中的词云。

2016-07-01 17:57:58 20758 7

原创 [每日一答] [20151027] R语言中的套接字socketConnection

最近在研究R语言的并行计算,不可避免的,就接触到了R语言中的套接字。R语言中的套接字是由socketConnection函数实现的,具体关于TCP/IP协议的内容这里就不再累述,直接上案例代码:

2015-10-30 22:59:17 1397

原创 [每日一答] [20151026] 搭建R的并行计算集群

R的云服务器部署有两种解决方案,一种是使用R语言的并行计算,另外一种是使用RHadoop框架。 RHadoop框架其实就是M / R 算法的R语言实现,需要使用者有M / R的计算基础,和R语言平常使用的计算方式有很大的不同,因此,我采用的解决方案是搭建R 的并行计算集群。

2015-10-30 22:58:21 629

原创 [每日一答] [20151025] R语言并行计算的原理和案例

众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是R在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。

2015-10-30 22:57:18 983

原创 [每日一答] [20151024] incomplete final line found by readTableHeader on ${fileName}原因以及解决方案

在我们使用R的导入文件到DataFrame的过程中,经常会看到incomplete final line found by readTableHeader on ${fileName}这样子的WARNING,这是什么原因呢?

2015-10-30 22:56:29 18122 2

原创 [每日一答] [20151022] 使用MySQL命令行修改密码

通过MySQL命令行,可以修改MySQL数据库的密码。

2015-10-22 22:36:37 411

原创 [每日一答] [20151021] R如何制作多维度散点图

Excel中支持了很好的多维度散点图,如上图所示,那么在R中,如何画出多维度散点图呢?

2015-10-22 00:09:35 5505

原创 [每日一答] [20151020] 中文乱码,修改文件编码的方法

中文乱码,修改文件编码的方法

2015-10-22 00:08:06 660

原创 [每日一答] [20151019] R语言中的正则表达式

元字符是指正则表达式中使用一些固定的字符,来代表一定的规则,类似关键字的概念。

2015-10-22 00:07:05 1272

原创 [每日一答] [20151018] 关于在R中几个安装包的方法

在R中,总共有两种方式安装R的拓展包。

2015-10-22 00:05:35 1628

原创 [每日一答] [20151017] MySQL 使用 MRG_MyISAM 存储引擎来实现分表

MRG_MyISAM存储引擎为MySQL的其中一个存储引擎,使用下面语句察看MYSQL数据库是否支持该存储引擎。

2015-10-22 00:03:58 653

原创 [每日一答] [20151016] MySQL中的数值函数

本文我们来介绍MySQL中常用的数值符号和函数。

2015-10-16 22:18:37 533

原创 [每日一答] [20151015] pandas中的isin函数详解

其实实现not in的逻辑,不用那么复杂,直接用isin函数再取反即可,下面就是isin函数的详解。

2015-10-15 22:34:41 36842

原创 [每日一答] [20151014] MySQL统计函数记录——时间段统计

MySQL统计函数记录——时间段统计

2015-10-14 12:19:27 480

原创 [每日一答] [20151013] MySQL中的GROUP_CONCAT()函数详解

GROUP_CONCAT将某一字段的值按指定的字符进行累加,系统默认的分隔符是逗号,可以累加的字符长度为1024字节。可以对这些参数进行修改。

2015-10-13 12:52:20 627

原创 [每日一答] [20151012] pandas中,groupby方法返回MultiIndex转成DataFrame

我们可以使用reset_index()方法,将MultiIndex的多层索引直接重置为0,1,2,……,这样子我们就可以把多层索引中的值转成列了

2015-10-12 23:51:15 15508 2

原创 [每日一答] [20151011] 如何在Python2.7版本中安装pip程序呢?

pip 是一个安装和管理 Python 包的工具,python安装包的工具有easy_install, setuptools, pip,distribute。使用这些工具都能下载并安装django。而pip是easy_install的替代品。

2015-10-11 22:05:29 901

原创 [每日一答] [20151010] R中替换缺失值

在R中缺失值是使用“NA”表示的。可以通过函数is.na()来判断一个对象是否是缺失值。在处理数据时,经常就会遇到“缺失值”的问题,需要对这些“缺失值”进行合适的替换。举例说明在R中如何实现。

2015-10-10 22:42:25 1512

原创 [每日一答] [20151009] 一键式安装Python数据分析工具Canopy

很多学员在学习的过程中反馈到安装numpy和pandas会有困难,首先numpy的官网就没有64位版本的,只有32位版本,这就要求Python也是要32位版本的,安装了64位版本的同学要卸载重来。然后是pandas,如果没有安装numpy,就无法安装,总之就是依赖太多,太麻烦,这里我介绍一个Python的数据分析工具包Canopy,让不想折腾编程环境的同学使用。

2015-10-09 23:17:11 1564

原创 [每日一答] [20151008] 使用ZIP包安装MySQL数据库

MySQL官网给出的安装包有两种格式,一个是msi格式,一个是zip格式的。本课程介绍如何使用zip包安装MySQL数据库。

2015-10-09 23:10:58 477

原创 [每日一答] [20151007] RStudio中,出现中文乱码问题的解决方案

在《R数据分析实战(入门篇)》中,很多学员使用RStudio打开数据文件,会显示如上图的乱码情况,这里介绍一种比较综合的解决方案。

2015-10-09 00:01:27 13136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除