数据分析
数据分析包括可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理。
数据分析的常规流程
1.确定分析目标
2.数据采集
3.数据清洗
4.数据分析
5.数据可视化
数据采集不同方式
1.公司内部
(1)埋点:用户浏览或者点击等操作的日志数据 mongoda redis nosql
(2)各大业务系统:业务系统保留下来的商业数据 mysql oracle sqlserver
2.公司外部
(1)爬虫:采集公司外部的网站数据
(2)第三方数据公司
数据行业的职位划分
ETL+数仓:更贴近大数据的范畴
模型算法(算法工程师)
计算模型(数据分析师)
爬虫(爬虫工程师)
可视化报表呈现(BI工程师)
爬虫
爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到自己的猎物(所需要的资源),那么它就会将其抓取下来。
爬虫的分类
全网爬取(谷歌,搜狗,百度)
全站爬取(大型数据调研机构)
定向爬取(各大公司数据的采集需要)
爬虫的合法性
1.个人隐私数据
2.明确禁止他人访问的数据
爬虫的常规步骤
1.指定URL地址(动态网页的爬取需要知道网络接口才行)
2.发起请求(requests库包)
3.获得响应数据(requests库包 response对象, html, json)
4.解析网页和提取关键信息(beautifulsoup, xpath, css)
5.保存数据(mysql,excel,csv,txt,json)