分享数据科学家的自我修养

分享数据科学家的自我修养

从用户连续活跃的最大天数说起

问题引入 最近经常碰到这样的问题,每天每个城市播放最多的10首歌,某月每支股票连续下跌/上涨的最大天数,用户连续活跃的最大天数,初步看起来都和分析函数相关,考验逻辑思维和写复杂SQL的能力。 以用户连续活跃的最大天数为例 以Oracle的分析函数语法说明,首先模拟一些用户活跃的数据, -...

2018-07-19 13:01:11

阅读数:253

评论数:0

Series和DataFrame的数据取值与选择

数据取值与选择 NumPy数据取值的方法,包括取值操作(如arr[2, 1])、切片操作(如arr[:, 1:5])、掩码操作(如arr[arr > 0])、花哨的索引操作(如arr[0, [1, 5]]),以及组合操作(如arr[:, [1, 5]])。在NumPy的二维数...

2018-07-01 15:16:42

阅读数:2975

评论数:0

Spark实战(6)_spark-sql -e -f -i命令的整合和spark-sql日常作业开发流程总结

背景介绍 在日常工作中,我们可以在一个shell脚本里面利用spark-sql -e执行sql脚本,而且可以传参数,但是存在一个问题,shell脚本对格式要求严格,而且shell脚本和spark-sql的脚本混在一起,内容庞大凌乱,不好管理。而spark-sql -f可以执行一个hql文件,但是不...

2018-05-24 21:47:58

阅读数:2109

评论数:1

Spark实战(5)_Spark Core核心编程

Spark版本 cdh5.9.0集成的spark的版本1.6.0,集成的hadoop版本2.6.0。查看的网址:http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.9.0/如果用cdh5.9.0 parcels离线安装自带的spark(on...

2018-05-10 18:25:39

阅读数:368

评论数:0

Spark实战(2)_Spark内核架构剖析

Standalone模式提交Spark应用的机器,Application(自己的Spark程序),spark-submit(shell)提交Application。Driver(启动一个进程),spark-submit使用Standalone模式提交Application的时候,其实会通过反射的方...

2018-04-26 18:19:42

阅读数:199

评论数:0

与iPhone5国行A1429的故事:越狱、降级刷机、完美电信3G、不完美电信4G、撸油管

自从上次把小米3全网通版刷了安卓原生系统,干净清爽的一B,装上了G家全家桶,焕发了第二春,可以再战几年,唯一缺点就是不能用4G。你需要一个原生的安卓这次再深入研究了一下苹果的iPhone 5。应用场景作为电信卡(3G/4G)的备用机,可以电话、短信、科学上网。测试设备:iPhone5国行A1429...

2018-02-25 14:05:00

阅读数:5491

评论数:0

内网环境集群主机的时间同步

应用场景 在解决内网环境集群主机的时间同步问题时,遇到了ntp的错误no server suitable for synchronization found,之前在生产环境也遇到过这个错误,为彻底解决这个小问题,查阅了鸟哥的NTP服务器一篇,对比了网上的一些解决方案,按作为服务端和用户端的应...

2018-01-28 00:06:16

阅读数:434

评论数:0

Spark实战(1)_Spark2.0环境搭建

环境安装软件准备 CentOS-7-x86_64-Everything-1611.iso spark-2.0.1-bin-hadoop2.7.tgz hadoop-2.7.3.tar.gz scala-2.11.8.tgz jdk-8u91-linux-x64.tar.gz 建立L...

2018-01-07 23:39:58

阅读数:335

评论数:0

Hadoop实战(10)_Sqoop import与抽取框架封装

CDH Hadoop系列目录:Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoop实战(8)_CDH添加Hive服务及Hive基础Hadoop实战(9)_Hive进阶及UDF开发Sqo...

2017-11-25 18:35:51

阅读数:544

评论数:0

Hadoop实战(9)_Hive进阶及UDF开发

CDH Hadoop系列目录:Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoop实战(8)_CDH添加Hive服务及Hive基础Hive目录及配置文件# 配置文件 /etc/hive...

2017-11-16 16:52:43

阅读数:464

评论数:0

Hadoop实战(8)_CDH添加Hive服务及Hive基础

CDH Hadoop系列目录:Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hive体系结构Hive有2个服务端守护进程:Hiveserver2:支撑JDBC访问,Thrift服务。Meta...

2017-11-14 21:05:26

阅读数:2119

评论数:0

Hadoop实战(7)_Apache Hadoop安装和配置Hue

系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoo...

2017-10-31 23:45:05

阅读数:426

评论数:0

Hadoop实战(6)_搭建Apache Hadoop的Eclipse开发环境

系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hadoo...

2017-10-30 11:23:58

阅读数:538

评论数:0

Hadoop实战(5)_Hadoop的运维经验

系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Cloudera Manager如何卸载卸载CM Ser...

2017-10-29 12:22:09

阅读数:464

评论数:0

Hadoop实战(4)_Hadoop的集群管理和资源分配

系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式Hadoop实战(3)_虚拟机搭建CDH的全分布模式DataNode数据目录如果有多个挂载点,可以有多个DataNode数据目录。目前服务器硬件,标准小型机配置:3...

2017-10-26 19:59:07

阅读数:1995

评论数:0

Hadoop实战(3)_虚拟机搭建CDH的全分布模式

系列目录:Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式建立Linux虚拟机(全节点)客户机操作系统:rhel-server-6.5-x86_64。网络连接:NAT模式。Connecet automaticcally:打...

2017-10-24 21:06:31

阅读数:484

评论数:0

Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式

建立Linux虚拟机(全节点)客户机操作系统:CentOS-6.5-x86_64。网络连接:host-only。Connecet automaticcally:打勾。 hostname Address Netmask Gateway hadoopmaster 192.168....

2017-10-23 19:27:31

阅读数:331

评论数:0

Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境

环境:阿里云服务器 CentOS 7 x86_64安装介质:jdk-7u75-linux-i586.tar.gz,hadoop-2.4.1.tar.gz安装jdktar -zxvf jdk-7u75-linux-i586.tar.gz配置环境变量:# vi .bash_profileJAVA_HO...

2017-10-14 20:56:00

阅读数:1874

评论数:0

搜狗词库爬虫(2):基础爬虫框架的运行流程

项目的Github地址:https://github.com/padluo/sogouSpider各模块对应的内容如下:getCategory.py,提取词库分类ID和名字,以字典形式返回。SpiderMan.py,爬虫调度器。UrlManager.py,URL管理器。HtmlDownloader...

2017-09-24 16:03:58

阅读数:517

评论数:0

搜狗词库爬虫(1):基础爬虫架构和爬取词库分类

基础爬虫架构基础爬虫框架主要包括五大模块:爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储器。爬虫调度器:启动、执行、停止爬虫,统筹其他模块的协调工作。URL管理器:管理已爬取的URL和未爬取的URL这两个数据,提供获取新URL链接的接口。网页下载器:将URL管理器提供的一个URL对应的...

2017-09-22 20:42:56

阅读数:1237

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭