数据的分析

本文介绍了数据分析的基本流程,包括确定分析目标、数据采集、清洗、分析和可视化。数据采集可以从公司内部的业务系统或外部的爬虫获取,涉及多种数据库和数据存储方式。同时,文章提到了数据行业的职位划分,如ETL、数仓、算法工程师、数据分析师和BI工程师。爬虫作为数据采集的一种手段,有全网、全站和定向爬取三种类型,并需要注意合法性和遵循步骤进行。
摘要由CSDN通过智能技术生成

数据分析

数据分析包括可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理。

数据分析的常规流程
1.确定分析目标
2.数据采集
3.数据清洗
4.数据分析
5.数据可视化

数据采集不同方式
1.公司内部
(1)埋点:用户浏览或者点击等操作的日志数据 mongoda redis nosql
(2)各大业务系统:业务系统保留下来的商业数据 mysql oracle sqlserver
2.公司外部
(1)爬虫:采集公司外部的网站数据
(2)第三方数据公司

数据行业的职位划分
ETL+数仓:更贴近大数据的范畴
模型算法(算法工程师)
计算模型(数据分析师)
爬虫(爬虫工程师)
可视化报表呈现(BI工程师)
爬虫
爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到自己的猎物(所需要的资源),那么它就会将其抓取下来。

爬虫的分类
全网爬取(谷歌,搜狗,百度)
全站爬取(大型数据调研机构)
定向爬取(各大公司数据的采集需要)

爬虫的合法性
1.个人隐私数据
2.明确禁止他人访问的数据

爬虫的常规步骤
1.指定URL地址(动态网页的爬取需要知道网络接口才行)
2.发起请求(requests库包)
3.获得响应数据(requests库包 response对象, html, json)
4.解析网页和提取关键信息(beautifulsoup, xpath, css)
5.保存数据(mysql,excel,csv,txt,json)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值