自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Day15实习日记

以2014年的消费数据为例(其他年份类似)提取出2014年的订单数据后,分别添加F、M、R三个维度的数据列,然后再分别对三个维度划定评级,添加三个列,并将每条记录的三个维度的评分进行0、1标记(大于平均分记为1,小于平均分的记为0),最后对每个客户进行价值类型标记;根据客户对平台的贡献度的排序是:重要价值客户 > 重要保持客户 > 重要发展客户 >重要挽留客户 > 一般价值客户 > 一 般保持客户 > 一般发展客户 > 一般挽留客户。提取三种重要的客户价值,然后分别添加F、M、R三个维度的数。

2024-06-21 09:06:49 394

原创 Day14实习日记

可知:Consumer类型的消费者的客户占比最多,达51.7%, Home Office占比最小,可加强对该类型的客户进行营销宣传。由上面可知,各类型的消费者的销售额在逐步上升,其中以普通消费者的销售额最多, 可能是因为普通消费者最多的缘故。绘制饼图查看不同客户的类型占比,其中,'Segment’字段 代表客户类别。由上面可分析出,每种类型的客户数量在逐年增长,说明客户 的结构类型趋于良好。

2024-06-20 11:34:46 235

原创 Day13实习日记

还可以发现,2011-2014年每年的新增客户数呈逐年减少的趋势,新客户获取率比较低,因此,可以进行主动推广营销,从而增加新客户数;根据Customer ID列数据进行重复行的删除, 保证数据集中所有的客户ID都是唯一的,根据此数据再通过年、月进行分组, 通过透视表分析新老客户数。由上面的折线图可以看出,该超市2011-2014年每一年的销售 额同比上一年都是上升趋势,而且该超市的旺季是下半年;尤其需要注意,下半年的7月份和10月份。先去重,在通过统计的客户ID可以得知新客户的数量,在于总客户数量对比。

2024-06-20 10:40:31 360

原创 Day12实习日记

从该饼图可以看出:APAC、BJ两个地区的销售额比例很高, 总计占51.6%,Canada的销售总额占比最小,只有0.5%,可以。由上图可看出,除了Canada地区以外,各大地区销售额都比较 高的是电子产品,可 以适当加大对各地区(除Canada地区)由上面的条形图可看出,各个地区2011-2014年的销售总 额均是增长趋势, 其中APAC地区和EU地区的增长速度较快,答:pd.pivot_table();市场前景较好,下一年可以适当 加大运营成本。该种类的投入,以便扩大优势。增加对该地区的营销。

2024-06-20 08:42:48 237

原创 Day11实习日记

先根据年和月进行分组,再分别提取各年份(2011-2014 年)的数据,分析各年份对应月的利润情况。客单价分析 客单价指商场(超市)每一个顾客平均购买商品的金额,客单 价反映顾客的购买水平;通过计算并展示每年的客单价数据,可以反映每年的顾客购买 水平。可以看出:客单价逐年上升,说明顾客的购买水平是逐年增加的。答:1.groupby(),agg();客单价=销售额÷成交顾客数。

2024-06-19 17:10:42 153

原创 Day10实习日记

先学一个之后能用到的东西:pandas.pivot_table可以创建一个透视表。

2024-06-18 16:22:50 732

原创 Day9实习日记

这是我在进行dafaframe数据类型转换时的报错,对某一列数据data[‘XXX’][0].dt.date这么用的话就会报错, 直接data[‘XXX’].dt.date就好了。Order Priority:订单优先级;Customer Name:客户姓名;Sub-Category:产品子类别;Customer ID:客户ID;Order Date:订单日期;Product ID:产品ID;Ship Date:发货日期;Ship Mode:发货模式;Order ID:订单ID;

2024-06-17 15:53:30 171

原创 Day8实习日记

为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。这里和需求2的统计省份浏览量的部分操作类似,像提取ip一样把其他属性提取出来就行,Reducer都不需要写,使用Map操作即可完成。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-14 09:53:59 220

原创 Day8实习日记

继续做Hadoop实现的电商实战根据电商日志文件,分析:1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量 (需要解析IP)3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-14 08:36:01 366

原创 Day7实习日记

今天做Hadoop实现的电商实战。

2024-06-12 22:58:30 230

原创 Day6实习日记

使用 val 关键字声明的变量是不可变的,即一旦赋值后,其值不能再被改变。使用 var 关键字声明的变量是可变的,其值可以在程序的生命周期内多次改变。Scala 编译器产生的标志符使用,应用程序应该避免使用”$"开始的标识符,以免造成冲突。在 Scala 中,使用关键词 “var” 声明变量,使用关键词 “val” 声明常量。Scala 运行于 Java 平台(Java 虚拟机),并兼容现有的 Java 程序。Scala 的命名规则采用和 Java 类似的 camel 命名规则,首字符小写,比如。

2024-06-11 23:01:17 328

原创 Day5实习日记

自定义类继承org.apache.hadoop.mapreduce.Partitioner,重写getPartition()方法在job驱动中,设置自定义partitionerjob.setPartitionerClass(自定义分区类.class);自定义partition后,要根据自定义partitioner的逻辑设置相应数量的reduce taskjob.setNumReduceTasks(reduce个数);

2024-06-11 22:24:27 335

原创 Day1实习日记

pwd命令:显示当前工作目录(print working directory)cd 命令:用于切换目录(change directory)-p选项:父目录不存在情况下先生成父目录 (parents)进行文件内容的合并:cat [选项] 文件名1 文件名2 …mkdir命令:创建目录(make directoriy)-r 同时删除该目录下的所有文件(recursive)mv命令:移动文件或目录、文件或目录改名(move)-a 显示所有文件及目录(包括隐藏文件与目录)-f 强制删除文件或目录(force)

2024-06-11 22:12:28 838

原创 Day4实习日记

MapReduce是面向大数据并行处理的计算模型、框架和平台。

2024-06-06 23:14:25 202

原创 Day3实习记录

为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)今天主要是在写项目,老师讲解了一下第二个项目和其中遇到过的某些问题。统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)反思:下次一定要及时写注释。

2024-06-05 19:58:47 457

原创 Day2实习记录

项目进度(1)自定义Access类(2)自定义Map任务类(3) 编写Reduce任务类。

2024-06-04 23:06:51 334 1

原创 Logisim位拓展器(Bit Extender)

Logism里位拓展器似乎会默认选择为0拓展,所以选择时一定要注意一下对于种类的选择。通过输入一位的位扩展器,很容易能达到“复制输入数位数的效果”接下来是符号扩展,直接通过名称+控制变量法容易理解。写到这发现改的名字刚通过审核www。

2023-10-11 18:16:39 2272

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除