Python+大数据-Excle-kettle使用

最新推荐文章于 2024-07-05 08:00:00 发布

呆猛的呆呆小哥

最新推荐文章于 2024-07-05 08:00:00 发布

阅读量1.1k

点赞数

分类专栏： python+大数据文章标签：大数据 python 数据挖掘

本文链接：https://blog.csdn.net/qq_45588318/article/details/125999840

版权

python+大数据专栏收录该内容

50 篇文章 26 订阅

订阅专栏

Python+大数据-Excle-kettle使用-day03(黑马)

1.数据分析介绍

1.什么是数据
数据是能够被看到、听到、感知到并记录下来被用于科学研究、技术设计、查证、決策等的数值。
	数据的变异性：数据会跟随时间、地点、生产生活以及客观规律发生变化。
	数据的规律性：数据达到足够数量后会存在一定的内在规律。
	数据的客观性：能够记录或佐证客观事实，不随主观意愿变化。
2.数据分析在不同行业可以做什么
电商类
电商网站会采集大量的用户行为数据，如浏览、购买等，通过这些数据，数据分析师了解不同用户的喜好、行为方式从而帮助增加产品销量。
社交类
利用社交网络数据，可以更好的进行精准营销，通过对帖子、推文、博客和其他社交数据进行分析，可以有效改善用户服务和体验。

2.数据分析四大步骤

1.数据采集
	数据采集是整个数据分析工作的起点，所采集和加取的全不全、对不对，直接决定数据分析工作的质量，影后续所有的环节。
	1）埋点
		是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。
	2）爬虫
		利用代码模拟人的行为去各个网站抓取数据
	3）程序应用接口(API)
		连接各种软件系统，为了能在各系统之间共享数据而开放的技术接口管道。
2.数据清洗
	利用有关技术如数理计、数据挖掘或颋定义的清理规则将脏数据转化为满足数据质量要求的数据。
	1）保证数据的质量，就是保证数据分析的质量
	高质量的数据应当符合以下标准：
		•完整性
		•唯一性
		•准确性
		•一致性
	2）整洁有序的数据，可以提高数据分析的工作效率
		•每个变量独占一列
		•每条数据独占一行
3.数据分析统计
数据分析是指通过某种方法和技巧，对准备好的数据进行探索、分析，从中发现因果关系、内部联系和业务规律等分折结果，为特定的研究或商业目的提供参考。
	1)描述性分析
		描述某项事物的特性。需要准确、完善甚至是实时的数据。
	2）诊断性分析
		在对描述性数据进行评估时，诊断分析工具将使分析师能够深入到细分的数据，
		从而隔离出问题的根本原因。
	3）预测性分析
		对数据特征和变量的关系进行描述，基于过去的数据对未来进行预测。
	4）规范性分析
		规范模型利用对发生的事情的理解，为什么发生了这种情況以及各种“可能发生的"分析，以帮助用户确定采取的最佳行动方案。
4.数据可视化及辅助业务决策
1）清晰的可视化和完整的分析报告
	•能够把分析结果变得直观、简单、易理解；
	•分析报告全面、有逻辑、经得住推敲；
	•分析结论可靠、可验证；
2）推动产品按数据分析的结论进行修正、落地
	数据分析师总是需要通过说服产品和工程方面来改变产品，产生影响力。

Kettle

Kettle 介绍

	数据仓库是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建的，对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力，指导业务流程改进，监视时间成本、质量以及控制。
	ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程，目的是将企业中分散、零乱、标准不统一的数据整合到一起。
Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装
Kettle中文名称叫水壶，该项目的主程序员MATT希望把各种数据放到一个壶里，然后以一种指定的格式流出
Kettle允许管理来自不同数据库的数据，提供一个图形化的用户环境来描述想做什么，无需关心

学习
text-excel 将txt文本转换为excel
excel-table 将excel 转换为sql
table-table 将sql表复制转换为sql
UPdata_insert_table 将两个表同步更新插入
switch_case 将sql表按照性别分类出3个excel表
执行SQL脚本 里面可以删除指定字段
1_job 按照时间间隔执行命令
删除表数据 用txt文件中的内容删除Sql语句里面的内容
linux_text_excel 在linux下执行将txt转换为excel
	第一步：修改window下的TXT抽取到excel的转换任务，设置变量替换
	第二步：文本输入变量名称为linux_txt
	第三步：excel的输出量名称为linux_excel
	第四步：将文本输入的原window路径改为${linux_txt}
	第五步：将原excel的window路径改为linux_excel
	第六步：将转换任务另存为linux_txt_excel
	第七步：在Linux环境下的/root/kettle目录下执行命令：
		pan.sh -file /root/kettle/linux_txt_excel.ktr -level=basic -param:linux_txt
		  =/root/kettle/user.txt -param:linux_excel=/root/kettle/user.xls