NFfffffff-CSDN博客

原创 Day15实习日记

以2014年的消费数据为例（其他年份类似）提取出2014年的订单数据后，分别添加F、M、R三个维度的数据列，然后再分别对三个维度划定评级，添加三个列，并将每条记录的三个维度的评分进行0、1标记（大于平均分记为1，小于平均分的记为0），最后对每个客户进行价值类型标记；根据客户对平台的贡献度的排序是：重要价值客户 > 重要保持客户 > 重要发展客户 >重要挽留客户 > 一般价值客户 > 一般保持客户 > 一般发展客户 > 一般挽留客户。提取三种重要的客户价值，然后分别添加F、M、R三个维度的数。

2024-06-21 09:06:49 394

原创 Day14实习日记

可知：Consumer类型的消费者的客户占比最多，达51.7%， Home Office占比最小，可加强对该类型的客户进行营销宣传。由上面可知，各类型的消费者的销售额在逐步上升，其中以普通消费者的销售额最多，可能是因为普通消费者最多的缘故。绘制饼图查看不同客户的类型占比，其中，'Segment’字段代表客户类别。由上面可分析出，每种类型的客户数量在逐年增长，说明客户的结构类型趋于良好。

2024-06-20 11:34:46 235

原创 Day13实习日记

还可以发现，2011-2014年每年的新增客户数呈逐年减少的趋势，新客户获取率比较低，因此，可以进行主动推广营销，从而增加新客户数；根据Customer ID列数据进行重复行的删除，保证数据集中所有的客户ID都是唯一的，根据此数据再通过年、月进行分组，通过透视表分析新老客户数。由上面的折线图可以看出，该超市2011-2014年每一年的销售额同比上一年都是上升趋势，而且该超市的旺季是下半年；尤其需要注意，下半年的7月份和10月份。先去重，在通过统计的客户ID可以得知新客户的数量，在于总客户数量对比。

2024-06-20 10:40:31 360

原创 Day12实习日记

从该饼图可以看出：APAC、BJ两个地区的销售额比例很高，总计占51.6%,Canada的销售总额占比最小，只有0.5%，可以。由上图可看出，除了Canada地区以外，各大地区销售额都比较高的是电子产品，可以适当加大对各地区（除Canada地区）由上面的条形图可看出，各个地区2011-2014年的销售总额均是增长趋势，其中APAC地区和EU地区的增长速度较快，答：pd.pivot_table();市场前景较好，下一年可以适当加大运营成本。该种类的投入，以便扩大优势。增加对该地区的营销。

2024-06-20 08:42:48 237

原创 Day11实习日记

先根据年和月进行分组，再分别提取各年份（2011-2014 年）的数据，分析各年份对应月的利润情况。客单价分析客单价指商场（超市）每一个顾客平均购买商品的金额，客单价反映顾客的购买水平；通过计算并展示每年的客单价数据，可以反映每年的顾客购买水平。可以看出：客单价逐年上升，说明顾客的购买水平是逐年增加的。答：1.groupby(),agg();客单价=销售额÷成交顾客数。

2024-06-19 17:10:42 153

原创 Day10实习日记

先学一个之后能用到的东西：pandas.pivot_table可以创建一个透视表。

2024-06-18 16:22:50 732

原创 Day9实习日记

这是我在进行dafaframe数据类型转换时的报错，对某一列数据data[‘XXX’][0].dt.date这么用的话就会报错，直接data[‘XXX’].dt.date就好了。Order Priority:订单优先级；Customer Name:客户姓名；Sub-Category:产品子类别；Customer ID:客户ID；Order Date:订单日期；Product ID:产品ID；Ship Date:发货日期；Ship Mode:发货模式；Order ID:订单ID；

2024-06-17 15:53:30 171

原创 Day8实习日记

为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。这里和需求2的统计省份浏览量的部分操作类似，像提取ip一样把其他属性提取出来就行，Reducer都不需要写，使用Map操作即可完成。日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）

2024-06-14 09:53:59 220

原创 Day8实习日记

继续做Hadoop实现的电商实战根据电商日志文件，分析：1.统计页面浏览量（每行记录就是一次浏览）2.统计各个省份的浏览量（需要解析IP）3.日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-14 08:36:01 366

原创 Day7实习日记

今天做Hadoop实现的电商实战。

2024-06-12 22:58:30 230

原创 Day6实习日记

使用 val 关键字声明的变量是不可变的，即一旦赋值后，其值不能再被改变。使用 var 关键字声明的变量是可变的，其值可以在程序的生命周期内多次改变。Scala 编译器产生的标志符使用，应用程序应该避免使用”$"开始的标识符，以免造成冲突。在 Scala 中，使用关键词 “var” 声明变量，使用关键词 “val” 声明常量。Scala 运行于 Java 平台（Java 虚拟机），并兼容现有的 Java 程序。Scala 的命名规则采用和 Java 类似的 camel 命名规则，首字符小写，比如。

2024-06-11 23:01:17 328

原创 Day5实习日记

自定义类继承org.apache.hadoop.mapreduce.Partitioner，重写getPartition()方法在job驱动中，设置自定义partitionerjob.setPartitionerClass(自定义分区类.class);自定义partition后，要根据自定义partitioner的逻辑设置相应数量的reduce taskjob.setNumReduceTasks(reduce个数);

2024-06-11 22:24:27 335

原创 Day1实习日记

pwd命令：显示当前工作目录（print working directory）cd 命令：用于切换目录（change directory）-p选项：父目录不存在情况下先生成父目录（parents）进行文件内容的合并：cat [选项] 文件名1 文件名2 …mkdir命令：创建目录（make directoriy）-r 同时删除该目录下的所有文件（recursive）mv命令：移动文件或目录、文件或目录改名（move）-a 显示所有文件及目录（包括隐藏文件与目录）-f 强制删除文件或目录（force）

2024-06-11 22:12:28 838

kuixixix的博客

原创 Day15实习日记

原创 Day14实习日记

原创 Day13实习日记

原创 Day12实习日记

原创 Day11实习日记

原创 Day10实习日记

原创 Day9实习日记

原创 Day8实习日记

原创 Day8实习日记

原创 Day7实习日记

原创 Day6实习日记

原创 Day5实习日记

原创 Day1实习日记

原创 Day4实习日记

原创 Day3实习记录

原创 Day2实习记录

原创 Logisim位拓展器（Bit Extender）

空空如也

空空如也