数据分析
文章平均质量分 71
振裕
被误解的大数据
展开
-
斯坦福大学怎样讲情感分析
一、自然语言处理概览——什么是自然语言处理(NLP)1)相关技术与应用自动问答(Question Answering,QA):它是一套可以理解复杂问题,并以充分的准确度、可信度和速度给出答案的计算系统,以IBM‘s Waston为代表;信息抽取(Information Extraction,IE):其目的是将非结构化或半结构化的自然语言描述文本转化结转载 2015-01-13 15:38:59 · 1450 阅读 · 0 评论 -
pyspark系列--连接pyspark
目录 1. 连接spark 1.1. 简单连接spark1.2. 连接spark集群1.3. 集群python环境1.4. config参数2. 提交作业1. 连接spark1.1. 简单连接sparkfrom pyspark.sql import SparkSessionspark=SparkSession \ .builder...原创 2018-03-23 22:28:57 · 7115 阅读 · 0 评论 -
pyspark系列--读写dataframe
目录 1. 连接spark2. 创建dataframe 2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取3. 保存数据 3.1. 写到csv3.2. 保存到parquet3.3. 写到hive3...原创 2018-03-23 22:30:30 · 20664 阅读 · 4 评论 -
pyspark系列--pandas和pyspark对比
目录 1. pandas和pyspark对比 1.1. 工作方式1.2. 延迟机制1.3. 内存缓存1.4. DataFrame可变性1.5. 创建1.6. index索引1.7. 行结构1.8. 列结构1.9. 列名称1.10. 列添加1.11. 列修改1.12. 显示1.13. 排序1.14. 选择或切片1.15. 过滤1.16. 整合1.17. 统计...原创 2018-03-23 22:31:39 · 8399 阅读 · 3 评论 -
pyspark系列--dataframe基础
dataframe基础 1. 连接本地spark2. 创建dataframe3. 查看字段类型4. 查看列名5. 查看行数6. 重命名列名7. 选择和切片筛选8. 删除一列9. 增加一列10. 转json11. 排序12. 缺失值1. 连接本地sparkimport pandas as pdfrom pyspark.sql import Spa...原创 2018-03-23 22:32:45 · 7886 阅读 · 1 评论 -
pyspark系列--datafrane进阶
datafrane进阶 1. 分组统计2. join 操作3. 缺失值处理4. 空值判断5. 缺失值处理6. 离群点7. 重复值8. 生成新列9. 类eval操作10. 行的最大最小值11. when操作12. lag,lead平移1. 分组统计分组统计应该是用的最多的方法了,比如分地区求平均值,最大最小值等。# 分组计算1color_df...原创 2018-03-23 22:33:55 · 5389 阅读 · 1 评论 -
pyspark系列--统计基础
统计基础 1. 简单统计2. 随机数3. 四舍五入4. 抽样5. 描述性统计6. 最大值最小值7. 均值方差8. 协方差与相关系数9. 交叉表(列联表)10. 频繁项目元素11. 其他数学函数 11.1. 数学函数12. 元素去重计数13. 聚合函数 grouping14. 聚合函数 grouping_id1. 简单统计在数据分析中,基本统计分...原创 2018-03-23 22:39:34 · 9899 阅读 · 1 评论 -
pyspark系列--日期函数
日期函数 1. 获取当前日期2. 获取当前日期和时间3. 日期格式转换4. 字符转日期5. 获取日期中的年月日6. 获取时分秒7. 获取日期对应的季度8. 日期加减9. 月份加减10. 日期差,月份差11. 计算下一个日子的日期12. 本月的最后一个日期1. 获取当前日期from pyspark.sql.functions import curr...原创 2018-03-23 22:40:34 · 15582 阅读 · 8 评论 -
pyspark系列--字符串函数
字符串函数1. 字符串拼接2. 字符串格式化3. 查找字符串位置4. 字符串截取5. 正则表达式6. 正则表达式替换7. 其他字符串函数1. 字符串拼接from pyspark.sql.functions import concat, concat_wsdf = spark.createDataFrame([('abcd','123')], ['s',...原创 2018-03-23 22:41:29 · 11061 阅读 · 0 评论 -
pyspark系列--集合操作
汇总函数1. 创建map2. 创建列表3. 元素存在判断4. 数据拉直5. posexplode6. json操作 6.1. get_json_object6.2. json_tuple6.3. from_json6.4. to_json7. 列表排序1. 创建map# Creates a new map column.from pyspark...原创 2018-03-23 22:42:45 · 4413 阅读 · 0 评论 -
pyspark系列--自定义函数
自定义函数 1. 概览2. 自定义函数的一般流程3. 简单的自定义函数4. 自定义函数进阶1. 概览自定义函数的重点在于定义返回值类型的数据格式,其数据类型基本都是从from pyspark.sql.types import * 导入,常用的包括: - StructType():结构体 - StructField():结构体中的元素 - LongT...原创 2018-03-24 10:55:46 · 11480 阅读 · 2 评论 -
数据统计基础之F分布及其应用
大数据统计基础之F分布及其应用1. F分布 1.1. Z检验和t检验的局限性1.2. 方差分析的含义与假设1.3. 方差分析的过程2. F分布的应用——方差的同质性检验 2.1. 方差分析的基本原理2.2. 方差分析的基本过程3. F分布的应用——方差分析 3.1. 单因素方差分析的意义3.2. 完全随机设计的方差分析 3.2.1. 完全随机设计3.2.2. 完全随...原创 2018-04-28 15:37:05 · 23909 阅读 · 1 评论 -
SQL-On-Pandas加速数据科学
SQL-On-Pandas加速数据科学 1. 背景2. 现状3. 实现过程 3.1. 基本假设和约定3.2. 实现方法3.3. globals()的使用3.4. exec的使用4. 使用方法1. 背景Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了...原创 2018-05-31 09:13:55 · 1209 阅读 · 1 评论 -
python爬虫基础
1. 前言我不是专业爬虫工程师,只是业余爬点数据做做分析和挖掘工作,所以没有使用到复杂的反爬虫和线程池等技术,也没有用到beautifulSoup这样的神库。但是并不影响我轻松爬取网页数据。 这里简单记录下浏览器操作,源码读取,以及数据提取的方法,够用了。2. selenium操作chrome浏览器2.1. 安装chrome浏览器和浏览器驱动首先你需要安装chrome浏览...原创 2018-07-29 20:45:13 · 567 阅读 · 1 评论 -
pyspark系列--pyspark2.x环境搭建
pyspark2.x环境搭建1. 前言2. linux子系统 2.1. 操作windows文件2.2. ssh安装3. java环境4. 安装hadoop5. 安装spark6. 安装python7. 测试 7.1. 命令行测试7.2. 提交python程序测试1. 前言因为文章主要是整理pyspark2.x的使用,不涉及到集群管理和集群参数调整,因...原创 2018-03-23 22:25:57 · 1906 阅读 · 1 评论 -
python3操作hive
1. 前言目前python3连接hive的方法主要是使用cloudera开发的impyla包,但是要安装impyla也不是那么容易的事情,因为impyla要使用系统底层模块,所以就要先安装对应的模块,而不仅仅是安装impyla就可以了。如果是想hdfs-server就好了,一个http就能搞定。在过大网友的无私奉献,以及Google和Baidu的帮助下,终于解决了python3连接hive...原创 2018-03-06 11:44:17 · 3899 阅读 · 0 评论 -
供应链单级多周期库存补货模型
供应链单级多周期库存补货模型1. 经典EOQ模型及其基本假设1.1. 什么是EOQEOQ,即 经济订购批量模型,是库存模型的理论基础,也是库存理论的基础模型,其核心是:在订货成本与库存成本之间寻找一个平衡,使得订货能够满足市场预估需求,而且成本最小化。可以用下面的一幅图来表示,订货成本逐渐下降,是因为随着订货量的增加,可以拿到数量价格折扣,同时单位运输成本也会下降,这是符合人们...原创 2018-03-11 22:01:59 · 11726 阅读 · 4 评论 -
用Pandas完成Excel中常见的任务
转自:http://python.jobbole.com/80870/本文由 伯乐在线 - 艾凌风 翻译,Daetalus 校稿。未经许可,禁止转载!英文出处:pbpython.com。欢迎加入翻译组。引言本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务。有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其他地方找到的复杂功能同等重要。转载 2016-01-27 13:14:12 · 17319 阅读 · 0 评论 -
ggplot2的简单实用
ggplot2的简单实用本文参考了《ggplot2作图详解》http://www.plob.org/2014/01/24/7452.html, 这篇文章比较详细介绍ggplot2的绘图过程,本文只是一个简单使用的总结,能满足数据分析过程的大部分图标要求。ggplot2包有两个绘图方法,一个是qplot,一个是ggplot方法。qplot()函数即 quick plot(快速绘图),是R语言的plot原创 2016-02-16 11:02:54 · 1250 阅读 · 0 评论 -
R语言dplyr简介
参考:http://bqnw.me/post/dplyr-note引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的与其它数据库对象间的接口. 既然是 Hadl转载 2016-02-22 19:44:38 · 3633 阅读 · 0 评论 -
R语音实战笔记
7基本统计分析7.1.1描述性统计分析# 1.查看一般的统计量vars = c('mpg','hp','wt')summary(mtcars[vars])# 2.对一列或多列应用多个函数myfunc <- function(x, na.omit=Flase){ if(na.omit) x = x[!is.na(x)] m=mean(x) n=length原创 2016-02-27 15:05:11 · 9230 阅读 · 0 评论 -
CDA二期学习笔记
变量分类SAS中 Binary:是二值类别型 Norninal:名义型,即多元类别型 Interval:数值型变量 Ordinal:顺序型,有序因子modeler中 nornimal:名以变量,指分类的1,2,3,4…变量,在R语言中叫因子. continual:连续变量,指变量本身是数值的. flag:标识,二值类别型,在只有两类的情况下,nornimal会原创 2016-02-25 12:15:03 · 1470 阅读 · 0 评论 -
python读写oracle的clob字段
python读取oracle的clob字段clob字段是oracle专门用于存储超长字符串的字段类型,一般varchar2只能存4000个字符串,超过4000个就存不下去了。 那么如何将clob读取到python中呢? 如果直接使用 pandas.read_sql(sql, conn)会报错,在百度一轮后发现有两种方法。1.read方法import cx_Oracleconn = cx_Ora原创 2016-08-18 10:01:27 · 13854 阅读 · 3 评论 -
Linux安装远程ipython notebook
配置服务器的ipython,这样就可以通过浏览器连接远程ipython进行数据分析和其他的操作了。 这里以虚拟机中的ubuntu为例,用virtualbox安装ubuntu,安装ssh,xshell连接远程服务器方法,安装anaconda(python)略过,请参考相关文章。1.创建登陆密码先在服务器端启动远程ipython,生成自定义密码的sha1In [1]: from IPython.lib原创 2016-04-01 16:31:17 · 13116 阅读 · 7 评论 -
利用python进行数据分析笔记
pandas基础流处理流处理,听起来很高大上啊,其实就是分块读取。有这么一些情况,有一个很大的几个G的文件,没办法一次处理,那么就分批次处理,一次处理1百万行,接着处理下1百万行,慢慢地总是能处理完的。# 使用类似迭代器的方式data=pd.read_csv(file, chunksize=1000000)for sub_df in data: print('do ...原创 2016-02-24 22:24:33 · 32343 阅读 · 0 评论 -
python 简单绘图
这里只讲数据分析常用的图形绘制,至于复杂的图形不在本篇讨论范围,讲到的几个图形基本满足数据分析过程的要求,至于汇报材料或者其他的高质量图形,以后再另外写关于ggplot2的简单使用。 python的绘图工具主要是matplotlib,这里不讲复杂的使用,只讲简单的使用。使用matplotlib绘图有两种方法: 1.matplotlib绘图,指定参数data=DataFrame或Series 2原创 2016-02-14 10:32:08 · 9160 阅读 · 0 评论 -
ubuntu安装spark1.6
官网下载的spark比较贴心,它预编译了hadoop和scale,而且可以单机运行,不需要复杂的配置,只需要java环境就可以了。相比以前学习hadoop的时候,光是配置hadoop和hbase就够呛的了。下面是比较仔细的安装过程,包括虚拟机安装,java安装,spark安装等。1.virtualbox安装ubuntu下载ubuntu32位的,然后使用virtualbox安装。 安装比较简单,新建原创 2016-03-09 10:18:24 · 961 阅读 · 0 评论 -
python seaborn画图
python seaborn画图以前觉得用markdown写图文混排的文字应该很麻烦,后来发现CSDN的markdown真是好用的。在做分析时候,有时需要画几个图看看数据分布情况,但总记不住python的绘图函数。今天有空顺便整理下python的seaborn绘图函数库。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seabo原创 2017-04-03 20:52:21 · 89007 阅读 · 16 评论 -
从推公式到写代码--聊聊最小二乘法
本专辑内容的阅读对象是有一定的高数和线性代数基础,但是缺少编程训练的人。1. 前言在这一讲中,我们来聊聊最小二乘及最小二乘方法求解方程参数问题。希望通过这一讲,能让大家了解通用参数求解方法的最小二乘是怎么工作的,如果大家有python基础,也希望大家能掌握一般方程的参数求解方法,并能依样画葫芦,解决学习工作中的数学模型参数问题。如果你没有python基础也不用担心,我们后面会有python及pyth原创 2018-03-09 15:19:52 · 878 阅读 · 0 评论 -
pandas-sql不同时间段汇总小技巧
pandas-sql小技巧问题描述统计不同产品在不同时间段的销量,即,A产品统计1-5号,B产品统计3-7号的销量….分析对于这种简单问题,首先想到的是,用SQL去做,只要提取对应的时间区间就好了。 SQL语法如下:先取出指定日期区间的数据-- 先取出指定日期区间的数据select a.id as 产品ID, a.saledate as 销售日期, a.sa...原创 2018-03-09 16:35:40 · 1181 阅读 · 0 评论 -
机器学习-增量训练方法
机器学习-增量训练方法1. 为什么要增量训练做过机器学习的同学都知道,有时候训练数据是很多的,几十万几百万也是常有的事。虽然几十万几百万只看记录数不算多,但是如果有几百个特征呢,那数据集是很恐怖的,如果存成numpy.float类型,那绝对是把内存吃爆。我就是在这种情况下,开始考虑增量模型的增量训练。现在的机器都很便宜了,为什么不能放在服务器上面执行呢?我也有想过这个问题,但是在she...原创 2018-08-06 21:27:01 · 35778 阅读 · 10 评论