数据分析Day1 2023 8/1

数据分析大概有五个步骤。1.数据获取 2.探索分析与可视化 3.预处理理论 4.分析模型 5.模型评估 其中1、2步已经完成了狭义的数据分析。更细致的狭义数据分析步骤为:

1.提出问题——即我们所想要知道的指标(平均消费额、客户的年龄分布、营业额变化趋势等等)

2.导入数据——把原始数据源导入Jupyter Notebook中(网络爬虫、数据读取等)

3.数据清洗——数据清洗是指发现并纠正数据文件中可识别的错误(检查数据一致性,处理无效值和缺失值等)

4.构建模型(高级的模型构建会使用机器学习的算法)

5.数据可视化——matplotib库等

数据获取的手段一般有:数据仓库、监测与抓取、填写、日志、埋点、计算。

数据仓库:一个数据载体,用于记录业务与流程中的每一个细节。将所有业务数据经汇总处理,构成数据仓库-GW。部分维度与数据的整理即为数据集市-DM。数据库面对业务储存,仓库面对主题储存(主题:较高层次上对分析对象数据的一个完整并且一致的描述)。数据库针对应用(OLTP),仓库针对分析。数据库组织规范,仓库可能冗余,相对变化大,数据量大;

监测与抓取:抓取为直接解析网页、接口、文件信息,抓取的常用工具urllib、urllib2、requests、scrapy、phantomJS、beautifulSoup、Xpath(lxml);

埋点:APP或网页埋点(特定流程的信息记录点) 访客、停留时间、进出路;

操作日志:相对数据仓库的信息更加精简,以文件方式记录,需要进入仓库中统一分析。前端日志为需要传输到后端,后端日志即为服务器的日志,可以直接使用。

计算:通过已有数据计算生成衍生数据。

常用的数据学习网站: kaggle、TianChi天池、ImageNet、Open Images、统计局、政府机构、公司财报等。

今天就这些  8

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值