数据科学
文章平均质量分 60
数据科学
Jack Mai
Stay hungry.
展开
-
Python2.7和Python3.6共存的环境中,如何使用 Python 3.6 的 pip 安装其他包(如scikit-learn)
在开发环境中同时安装多个 Python 版本是一种常见的情况,本文将介绍在Python2.7和Python3.6共存的环境中,如何使用 Python 3.6 的 pip 安装其他包(如scikit-learn)。原创 2024-04-10 09:12:32 · 413 阅读 · 0 评论 -
【Spark实战】慕课网日志分析(三):清理后数据的存储、统计和入库
存储清洗后的数据调优点:coalesce(1)保证只有一个输出文件mode(SaveMode.Overwrite)保证能够覆盖原有文件package com.imooc.logimport org.apache.spark.sql.{SaveMode, SparkSession}/** * 使用Spark完成我们的数据清洗操作 */object SparkStatClea...原创 2019-04-14 11:04:19 · 1368 阅读 · 0 评论 -
【Spark实战】慕课网日志分析(二):数据二次清洗之日志解析
项目需求:统计最受欢迎的课程/手记的Top N访问次数按地市统计最受欢迎的Top N课程 – 根据ip地址提取出城市信息按流量统计最受欢迎的Top N课程输入:访问时间、访问url、耗费的流量、访问ip输出:url、cmsType(video/article)、cmsId、流量、ip、城市信息、访问时间、天第一步:读取数据新建一个类SparkStatCleanJob.scala...原创 2019-04-14 11:06:20 · 1316 阅读 · 1 评论 -
【Spark实战】慕课网日志分析(一):数据初步清洗
第一步:查看原始数据object SparkStatFormatJob { def main(args: Array[String]) { val spark = SparkSession.builder().appName("SparkStatFormatJob") .master("local[2]").getOrCreate() val acccess =...原创 2019-04-15 22:52:27 · 2825 阅读 · 24 评论 -
【大数据】Spark知识点简介
基本概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象DAG(Directed Acyclic Graph)有向无环图原创 2019-05-05 22:24:12 · 512 阅读 · 0 评论 -
【大数据】Hadoop知识点简介
Hadoop概述Hadoop是Apache基金会开发的一个开源的分布式系统基础架构,用于机器集群的数据存储和大规模数据处理。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 主要由以下模块组成:Hadoop Common:包含Hadoop模块相关的库和工具。Hadoop Distributed File System (HDFS) :一种分布式文件系统,可提供对应用程...原创 2019-05-04 12:05:24 · 785 阅读 · 0 评论 -
【大数据】YARN知识点简介
YARN产生背景MapReduce 1.x存在的问题主节点JobTracker带多个干活的从节点TaskTracker,典型的一对多架构。客户端先提交MapReduce作业到JobTracker,然后JobTracker再进行task的调度,调度完了之后,作业会分发到各个TaskTracker中执行,可见图中的TaskTracker各自执行2个Map任务和1个Reduce任务,此外,Tas...原创 2019-05-05 10:41:11 · 488 阅读 · 0 评论 -
IDEA运行spark程序错误解决:Failed to locate the winutils binary in the hadoop binary path
第一步:下载winutils的windows版本。打开GitHub地址:https://github.com/srccodes/hadoop-common-2.2.0-bin, 直接下载此项目的zip包,下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录。例如解压目录为:e:\env\第二步:配置环境变量 。增加系统变量名HADOOP_HOM...原创 2019-04-13 14:16:44 · 5907 阅读 · 0 评论 -
【Spark实战】慕课网日志分析中踩过的坑
CentOS修改root密码:https://www.linuxidc.com/Linux/2018-01/150211.htm原创 2019-04-12 11:45:52 · 339 阅读 · 4 评论 -
Hadoop错误解决:执行jps后没有DataNode
问题分析这个问题,一般由于多次格式化NameNode导致。解决方案第一步:停止hadoop:stop-dfs.sh第二步:删除所有名字为dfs的文件夹,我这里有以下两个文件夹,分别删除两次:rm -r ./tmp/dfs/rm -r ./app/tmp/dfs/第三步:格式化HDFS:./bin/hdfs namenode -format第四步:重启hadoop:start...原创 2019-04-12 18:24:38 · 8379 阅读 · 8 评论 -
【Spark实战】慕课网日志分析(四):将数据清洗的作业提交到YARN上运行
xx通过maven打包项目1.已有的不需要打包2.pom.xml要添加如下plugin <plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> ...原创 2019-04-16 00:00:54 · 588 阅读 · 1 评论 -
Spark使用示例:分别使用client模式和cluster运行SparkPi程序
部署到YARN先开启Hadoop和YARN:./start-all.sh进入spark目录,执行SparkPi程序(Client模式)/home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--e...原创 2019-04-16 12:04:22 · 1325 阅读 · 0 评论 -
【Spark实战】慕课网日志分析(五):将数据统计和入库的作业提交到YARN上运行
新建文件TopNStatJobYARN.scalapackage com.imooc.logimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._import org.apache.spark.sql.{DataFrame, SparkSession}import sc...原创 2019-04-16 12:21:41 · 605 阅读 · 0 评论 -
【Spark实战】慕课网日志分析:Hadoop环境配置和基本操作
重要路径说明:app:所有软件的安装目录software:安装包目录data:测试数据目录source:软件源码目录app/hadoop-2.6.0-cdh5.7.0/bin:包含客户端相关的脚本app/hadoop-2.6.0-cdh5.7.0/sbin/:包含服务端相关的脚本,例如start-yarn.sh start-dfs.sh查看虚拟机ip命令:ifconfig修改主机名到ip地址的映射命令:sudo vim /etc/hosts--------------------原创 2019-05-03 10:47:38 · 786 阅读 · 3 评论 -
错误解决:使用SparkSQL进行MySQL插入操作出现的中文乱码问题
使用SparkSQL进行MySQL插入操作的时候,出现了中文乱码问题。如下图:第一步:修改MySQL字符编码MySQL控制台中,使用命令:show variables like "%char%";发现字符编码设置并不是utf8,而是latin1为了改回utf8,使用以下命令:SET character_set_client = 'utf8';SET character_set_c...原创 2019-04-15 16:38:15 · 3007 阅读 · 1 评论