自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 ZooKeeper安装和基本操作

进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。​ ZooKeeper是一个树形目录服务,每一个节点都被称为ZNode,每个节点。上都会保存自己的数据和节点信息。节点可以拥有子节点,同时也允许少量。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。(1MB)数据存储在该节点上。

2024-06-17 14:33:25 619

原创 Spark SQL基本使用以及整合Hive

​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-17 14:25:05 990

原创 HBase

​ HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-17 14:17:46 846

原创 Spark运行模式

唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。为了防止出错,建议此处将该选项配置上。

2024-06-17 14:13:40 923

原创 Spark概述和SparkRDD

​ 可以看到,在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。

2024-06-17 14:01:53 762

原创 ## 舆情分析

有监督的话常用的是贝叶斯,其他 偏精度的算法也可以,要注意特征个数;无监督常用的是主题模型LDA,其他诸如 分群,情感分析也可以 · 清洗流程中,尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少 于某个阈值的评论.2.分词(结巴jieba);不过在此之前,我们得先分一下词,这里我们用的分词工具是jieba分词。使用的数据是评论数据,即文本数据 · 文本数据的分析过程主要有:清洗,可视化,建模.这里针对中文文本。可见,我们需要一定的数据清洗:非中英文字符的不要、在分词前逗号、句号不要。

2024-06-17 11:38:27 121

原创 【Python文本挖掘数据分析】(2)## 竞争分析

可见大部分仍然是灭蟑和杀虫 · 交易增长幅度最大的是灭鼠,而之前描述过灭鼠有最高的市场份额,可以作为下一步着 力点 · 总结:拜耳大部分产品集中在除蟑上,杀虫也有一定的规模,但是明星产品略乏力,可以 进一步发展问题产品灭鼠为明星产品。· 使用商品交易数据,每个竞争者分开分析,先分析拜耳的数据 · 包含五个月的数据,每个商品至多五个月都有,至少有一个月,故需要对商品分类汇总, 如下为分类汇总前五行结果。可见拜耳和安速的流量配比是差不多的,安速的整体流量小很多,即流量效果拜耳明显优于安速。

2024-06-17 11:38:08 322

原创 【Python文本挖掘数据分析】(2)

灭鼠0-50价格段的产品市场中: · 10-20价格段市场容量大,竞争度低,值得进一步开发,20-30也不错 · 店铺类型方面天猫明显优于淘宝 · 市场份额高的型号是粘鼠板,然而型号0005市场份额还行,竞争度较低,值得开发 · 产品的物理形态基本都是固体,也是被大众认可的形态 · 当物理形态为固体,净含量为1时,市场份额高竞争度低,值得开发 · 思考:数据分类多是人为填写的,那么分类的严谨性和可扩展性都值得考量,需要结合 业务逻辑和市场环境进一步判断。可见:当物理形态为固体,净含量为1时,潜力较大。

2024-06-17 11:38:02 623

原创 【Python文本挖掘数据分析】(1)

3、考虑蚊香加热器产品寿命长,且总交易额较低,占比较低,市场小,故主要考虑灭鼠杀虫剂市场。灭鼠杀虫剂市场份额较大(大于60%),约是第二名蚊香液的二倍,市场增长率接近40%, 可以认为是明星产品类目,需要持续投资和重点关注。灭鼠杀虫剂和蚊香液可进一步扩展,就需要与甲方业务人员进一步沟通 · 假设沟通后我们重点关注的是灭鼠杀虫剂。由于其中的时间列是从2015年11月到2018年10月,而我们需要的是2016-2018年每。驱虫市场不存在垄断,结构不集中,竞争相对激烈,即没有明显的来自大公司的压力。

2024-06-17 11:37:55 539

原创 【Python文本挖掘数据分析】汇总

互联网产品由关注用户增量到用户存量,判断产品或市场是用户增量还是存量,判断有新的需求出现即可:· 增量市场:从无到有,以前关注哪些需求没有被满足,快速迭代抢占市场,考虑最多的不是用户体验.流量=新增客户.例如:智能手机潮开始时的市场.小米面对的是增量市场· 存量市场:从有到优,现在关注如何更好的满足需求,考虑更多的是用户体验.产品价值=新体验-旧体验-替换成本,新体验没有突破性大幅增加,产品价值很难实现.流量。

2024-06-17 11:37:41 338

原创 Hive安装配置

​ Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-12 16:11:28 719

原创 大数据实训2

这里我们需要提取每一条数据中的ip、url、pageId、contry、province、city字段。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。我们需要提取每一条数据中的ip,在Map阶段使用ip解析的工具类,将每个ip对应到所属省份,将未知ip设置为默认值,得到的省份作为键,值设置为1。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-05 23:11:07 1095

原创 【实训日记1】手机流量统计项目

手机流量统计项目

2024-06-04 16:47:46 346

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除