基于海量微博数据的仓库构建与舆情热点挖掘项目总结

​一、mysql存储引擎

  1. innodb

  • 有事务,在操作性能上略低于myisam

  1. myisam

  • 无事务,在操作性能是哪个比较高,高于innodb

二、将hive表推送到mysql中

  1. 实现方法分析

  • 自行实现,而不用sqoop等第三方数据传输同步插件

  • 备注:sqoop是实现hive与其他各种关系型数据(rdb)的最受欢迎的第三方组件

  1. 自行实现步骤

  • 将hive表数据生成到文件weibo_hot_result.txt(原名000000_0)中

  • 拥有一个mysql库,以及相应的读写权限

  • 在mysql中创建词频表weibo_hot_words

  • 执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

  1. 将hive表数据生成到文件中

  • 生成一个weibo_seg_wc表的一个分区到文件中

    • 需求

      • 获取每个天分区下的Top100热词

    • 技术实现

      • 先落地到hdfs目录

      • 再从hdfs目录中将数据下载到入口机本地机器中

  1. 拥有一个mysql库,以及相应的读写权限(经典的多用户共享使用关系型数据库操作方法)

  2. 在mysql中创建词频表weibo_hot_words

  3. 执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

    #! /bin/sh
    mysql –h host -uroot -p******** -e "
       use yuqing_oncourse;
       LOAD DATA LOCAL INFILE './hot_words/000000_0' INTO TABLE weibo_hot_words FIELDS TERMINATED BY '\t' (word,freq,day_seq);
    "

三、如何证明数据挖掘的效果是准确ok的,可以被信任采纳的

  1. 直接证明

  2. 间接证明

  • 抽样检查

四、一个高级工程师需要具备的素质

  1. 一专多能

  2. 工作过程当中,往往都是有工作交叉的

五、maven的项目打包

  1. 项目打包分类

  • 可运行jar,即rennable jar

    • All in one 打包的jar

    • 分离式打包

      • 将自己的jar包和依赖的jar分开打

  • 非独立运行jar,即dependency jar

六、web类开发项目的代码梳理技巧

  1. 以功能开发为依据,针对每个功能进行自前往后,然后自后往前的请求流程的梳理即可

  2. 端到端的闭环系统

七、springboot的常用注解

  1. SpringBootApplication

  • 定义springboot项目的根类,自此开始

  1. ComponentScan

  • 组件浏览配置,解决spring组件装配的扫件路径问题

  1. Controller

  • MVC当中的C,即拦截器

  • 用来拦截用户的路径请求,并进行转向,到对应的Model当中进行处理

  • 完成后,再返回给指定的View视图

  1. RestController

  • 微服务,Controller+ResponseBody

  • 响应数据请求,将得到的处理结果,一般是json返回给前端的view进行渲染处理

  1. EnableAutoConfiguration

  • 让某个controller或是restcontroller可以独立启动,对外提供独立的微服务

  • 常用于微服务接口当中

  1. AutoWired

  • 自动织入,或者叫自动注入。

  • 将标记有该注解的对象,进行自动初始化,注入到spring容器当中。

  1. RequestMapping

  • 请求路径映射作用,将指定的映射路径交给对应的controller的方法去处理。

  1. Component

  • 将写的类纳入到spring容器管理当中。

八、cdn

  1. content delivery network,内容传输网络

  2. 像云计算都有自己的cdn网络结点

  3. 优缺点说明

  • 有点

    • 访问速度更快,不占用自家宽带资源

  • 缺点

    • 不够灵活,需要按照cdn有的东西来进行cdn的数据使用

九、echarts的使用方法

  1. 引入echarts的核心,js依赖和相关插件依赖

  2. 定义main div画板

  3. 初始化画板,拿到对应的echarts对象

  4. 定义参数对象option

  5. 设置chart的option参数,使之生效

  6. 响应式设置

  • window.οnresize=chart.resize

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值