一.
1.爬虫最初的形式其实是帮助搜索引擎建立索引数据库
2.数据分析做了;数据收集,收集分析。、
3.常规数据分析流程
明确分析目标
数据采集
数据清洗
数据分析
数据可视化
数据采集形式
1. 公司内部
1.埋点:用户浏览或者点击等操作的日志数据 mongo, redis, nosql
2.各大业务系统:各个业务系统保留下来的商业数据 mysql oracle sqlserver
2. 公司外部
1.爬虫:网页中获取公司外部信息
2.第三方数据公司
数据行业的职位划分
1. ETL+数据仓库:更贴近大数据的范畴
2. 模型算法(算法工程师):推荐系统,人脸识别,人工智能。。。。
3. 计算模型(数据分析师):具体的商业数据分析
4. 爬虫(爬虫工程师)(python,java):入门容易但是越深入难度越大
5. 可视化处理(tableau,powerbi)
大数据的分析方向为:离线数据分析,实时数据分析(分别对应:spark和flink)
二.scala是一种类似java的编程语言,设计的初衷是实现可伸缩的语言,并集成面向对象编程和函数式编程,scala是在java技术上的简化,发展源为最初为C语言。
三.java的执行库是jdk,运行库为jre。
四.开发环境中的软件安装地址尽可能不要出现任何中文和特殊符号,不然运行时可能会报错或者出现其他错误,开发工具最好安装在同一个目录下。
线上部署:公共jre 线下部署:开发工具
java下载地址:Java Downloads | Oracle scala下载地址:https://www.scala-lang.org/downloadǘ.11.8.html
五.java环境变量设置:
1.变量名:JAVA_HOME 变量值:需要自己Java的安装目录
2.变量名:CLASSPATH 变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
3.变量名:Path 变量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
4.scala环境变量设置:
5.变量名:SCALA_HOME 变量值:需要自己Scala的安装目录
6.变量名:Path 变量值:%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin;