- 博客(17)
- 收藏
- 关注
原创 Day15实习日记
以2014年的消费数据为例(其他年份类似)提取出2014年的订单数据后,分别添加F、M、R三个维度的数据列,然后再分别对三个维度划定评级,添加三个列,并将每条记录的三个维度的评分进行0、1标记(大于平均分记为1,小于平均分的记为0),最后对每个客户进行价值类型标记;根据客户对平台的贡献度的排序是:重要价值客户 > 重要保持客户 > 重要发展客户 >重要挽留客户 > 一般价值客户 > 一 般保持客户 > 一般发展客户 > 一般挽留客户。提取三种重要的客户价值,然后分别添加F、M、R三个维度的数。
2024-06-21 09:06:49 394
原创 Day14实习日记
可知:Consumer类型的消费者的客户占比最多,达51.7%, Home Office占比最小,可加强对该类型的客户进行营销宣传。由上面可知,各类型的消费者的销售额在逐步上升,其中以普通消费者的销售额最多, 可能是因为普通消费者最多的缘故。绘制饼图查看不同客户的类型占比,其中,'Segment’字段 代表客户类别。由上面可分析出,每种类型的客户数量在逐年增长,说明客户 的结构类型趋于良好。
2024-06-20 11:34:46 235
原创 Day13实习日记
还可以发现,2011-2014年每年的新增客户数呈逐年减少的趋势,新客户获取率比较低,因此,可以进行主动推广营销,从而增加新客户数;根据Customer ID列数据进行重复行的删除, 保证数据集中所有的客户ID都是唯一的,根据此数据再通过年、月进行分组, 通过透视表分析新老客户数。由上面的折线图可以看出,该超市2011-2014年每一年的销售 额同比上一年都是上升趋势,而且该超市的旺季是下半年;尤其需要注意,下半年的7月份和10月份。先去重,在通过统计的客户ID可以得知新客户的数量,在于总客户数量对比。
2024-06-20 10:40:31 360
原创 Day12实习日记
从该饼图可以看出:APAC、BJ两个地区的销售额比例很高, 总计占51.6%,Canada的销售总额占比最小,只有0.5%,可以。由上图可看出,除了Canada地区以外,各大地区销售额都比较 高的是电子产品,可 以适当加大对各地区(除Canada地区)由上面的条形图可看出,各个地区2011-2014年的销售总 额均是增长趋势, 其中APAC地区和EU地区的增长速度较快,答:pd.pivot_table();市场前景较好,下一年可以适当 加大运营成本。该种类的投入,以便扩大优势。增加对该地区的营销。
2024-06-20 08:42:48 237
原创 Day11实习日记
先根据年和月进行分组,再分别提取各年份(2011-2014 年)的数据,分析各年份对应月的利润情况。客单价分析 客单价指商场(超市)每一个顾客平均购买商品的金额,客单 价反映顾客的购买水平;通过计算并展示每年的客单价数据,可以反映每年的顾客购买 水平。可以看出:客单价逐年上升,说明顾客的购买水平是逐年增加的。答:1.groupby(),agg();客单价=销售额÷成交顾客数。
2024-06-19 17:10:42 153
原创 Day9实习日记
这是我在进行dafaframe数据类型转换时的报错,对某一列数据data[‘XXX’][0].dt.date这么用的话就会报错, 直接data[‘XXX’].dt.date就好了。Order Priority:订单优先级;Customer Name:客户姓名;Sub-Category:产品子类别;Customer ID:客户ID;Order Date:订单日期;Product ID:产品ID;Ship Date:发货日期;Ship Mode:发货模式;Order ID:订单ID;
2024-06-17 15:53:30 171
原创 Day8实习日记
为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。这里和需求2的统计省份浏览量的部分操作类似,像提取ip一样把其他属性提取出来就行,Reducer都不需要写,使用Map操作即可完成。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)
2024-06-14 09:53:59 220
原创 Day8实习日记
继续做Hadoop实现的电商实战根据电商日志文件,分析:1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量 (需要解析IP)3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-14 08:36:01 366
原创 Day6实习日记
使用 val 关键字声明的变量是不可变的,即一旦赋值后,其值不能再被改变。使用 var 关键字声明的变量是可变的,其值可以在程序的生命周期内多次改变。Scala 编译器产生的标志符使用,应用程序应该避免使用”$"开始的标识符,以免造成冲突。在 Scala 中,使用关键词 “var” 声明变量,使用关键词 “val” 声明常量。Scala 运行于 Java 平台(Java 虚拟机),并兼容现有的 Java 程序。Scala 的命名规则采用和 Java 类似的 camel 命名规则,首字符小写,比如。
2024-06-11 23:01:17 328
原创 Day5实习日记
自定义类继承org.apache.hadoop.mapreduce.Partitioner,重写getPartition()方法在job驱动中,设置自定义partitionerjob.setPartitionerClass(自定义分区类.class);自定义partition后,要根据自定义partitioner的逻辑设置相应数量的reduce taskjob.setNumReduceTasks(reduce个数);
2024-06-11 22:24:27 335
原创 Day1实习日记
pwd命令:显示当前工作目录(print working directory)cd 命令:用于切换目录(change directory)-p选项:父目录不存在情况下先生成父目录 (parents)进行文件内容的合并:cat [选项] 文件名1 文件名2 …mkdir命令:创建目录(make directoriy)-r 同时删除该目录下的所有文件(recursive)mv命令:移动文件或目录、文件或目录改名(move)-a 显示所有文件及目录(包括隐藏文件与目录)-f 强制删除文件或目录(force)
2024-06-11 22:12:28 838
原创 Day3实习记录
为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)今天主要是在写项目,老师讲解了一下第二个项目和其中遇到过的某些问题。统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)反思:下次一定要及时写注释。
2024-06-05 19:58:47 457
原创 Logisim位拓展器(Bit Extender)
Logism里位拓展器似乎会默认选择为0拓展,所以选择时一定要注意一下对于种类的选择。通过输入一位的位扩展器,很容易能达到“复制输入数位数的效果”接下来是符号扩展,直接通过名称+控制变量法容易理解。写到这发现改的名字刚通过审核www。
2023-10-11 18:16:39 2272
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人