自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

转载 大数据面试之_01_IT 从业人员面试小技巧

IT从业人员面试小技巧  一般来说,面试你的人都不是一个很好对付的人。别看他彬彬有礼,看上去笑眯眯的,很和气的样子。但没准儿一肚子坏水。  有些人待人特别客气,说话还稍稍有点结巴的,更容易让人上当。  所以,牢记一点,面试的时候保持高度警觉,对方不经意问出来的问题,很可能是他最想知道的。  举例来说,我每次面试的时候,最喜欢说的话就是:哦,我不是HR的,你别拘束,咱们...

2019-09-13 10:18:00 267

转载 大数据技术之_32_大数据面试题_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试...

一、Hive 基本面试1、什么是 metastore2、metastore 安装方式有什么区别3、什么是 Managed Table 跟 External Table?4、什么时候使用 Managed Table 跟 External Table?5、hive 有哪些复合数据类型?6、hive 分区有什么好处?7、hive 分区跟分桶的区别8、hive 如何动态分区9、map joi...

2019-06-18 21:50:00 457

转载 大数据技术之_31_Java 面试题_02_== 和 equals 有什么区别 + String 相关 + 多态 + 传值 + static 加载机制 + 线程...

1、== 和 equals 有什么区别?2、为什么需要同时覆写 hashCode 和 equals 方法?3、为什么用 eclipse 重写 hashCode 方法,有 31 这个数字?4、String 相关5、多态6、传值7、static 加载机制8、谈谈你对 HashMap 中 put/get 方法的认识?如果了解再谈谈 HashMap 的扩容机制?默认大小是多少?什么是负载因子...

2019-06-17 15:54:00 253

转载 大数据技术之_31_Java 面试题_01_JavaSE 面试题 + SSM 面试题 + Java 高级面试题 + Java 项目面试题...

第1章 JavaSE 面试题1、自增变量2、编程题:写一个 Singleton 示例3、类初始化和实例初始化4、方法的参数传递机制5、递归与迭代6、成员变量与局部变量第2章 SSM 面试题1、Spring Bean 的作用域之间有什么区别?2、Spring 支持的常用数据库事务传播属性和事务隔离级别3、SpringMVC 中如何解决 POST 请求中文乱码问题4、SpringMVC ...

2019-06-17 09:26:00 2585

转载 大数据技术之_30_JVM学习_01_JVM 位置+JVM 体系结构概览+堆体系结构概述+堆参数调优入门+JVM 的配置和优化+Tomcat 的配置和优化...

1、JVM 位置2、JVM 体系结构概览3、堆体系结构概述4、堆参数调优入门5、JVM 的配置和优化6、Tomcat 的配置和优化熟悉 JVM 架构与 GC 垃圾回收机制以及相应的 JVM 调优,有过在 Linux 系统下的调优经验。淘宝的周志明《深入理解 Java 虚拟机》中说 JVM 的优化,其中 99% 优化的是堆,1% 优化的是方法区。内地女歌手照片--李嘉欣...

2019-06-15 23:54:00 165

转载 大数据技术之_29_MySQL 高級面试重点串讲_02_Mysql 简介+Linux 版的安装+逻辑架构介绍+性能优化+性能分析+查询截取分析+分区分库分表简介+锁机制+主从复制...

第1章 Mysql 简介1.1 概述1.2 高级 MySQL第2章 Mysql Linux 版的安装2.1 下载地址2.2 检查当前系统是否安装过 mysql2.3 修改 Mysql 配置文件位置2.4 修改字符集和数据存储路径2.5 MySQL 的安装位置说明2.6 Mysql 配置文件说明2.7 Mysql 的数据存放目录第3章 Mysql 逻辑架构介绍3.1 总体概览3.2 查...

2019-06-15 11:00:00 542

转载 大数据技术之_29_MySQL 高级面试重点串讲_01_存储引擎 + Join 查询 + 索引与数据处理 + 查看执行计划 -- Explain + 索引失效(应该避免) + 批量数据脚本...

第1章 存储引擎1.1 Mysql 逻辑架构介绍1.2 查看命令1.3 MyISAM 和 InnoDB 的对比1.4 阿里巴巴、淘宝用哪个第2章 Join 查询2.1 SQL 执行顺序(一般情况下)2.1.1 手写顺序2.1.2 机读顺序2.1.3 总结2.2 建表 SQL2.3 7 种 JOIN 图2.4 7 种 JOIN 实操第3章 索引与数据处理3.1 索引是什么3.1.1 索...

2019-06-12 21:27:00 230

转载 【IDEA 】程序出现 Class 'xxx' is never used 警告下划线如何消除

问题描述:  不知道大家有没有发现,在我们用 IDEA 敲击代码的时候,经常会发现如下所示的现象:    报出的错误:Class 'GeoUtil' is never used  翻译之后得出的是:从未使用过类'GeoUtil'解决办法:  如果你感觉看起来不爽的话,那么就只需要这样操作就可以了:  File -> Settings... –> 搜索...

2019-05-26 11:59:00 2284

转载 【IDEA】如何设置代码超出长度限制时自动换行

在File --> Settings --> Code Sytle 中勾选 Wrap on typing 选项,进入到【Code Style】中可以看到 Right Margin 的默认值为120,即表明当前代码行的宽度提示为 120 个字符长度,这里我想设置为 150 个 字符长度,如下图:  转载于:https://www.cnblogs.com/chenmi...

2019-05-25 07:51:00 1733

转载 【IEDA】Typo: In woed 'xxx' more...(Ctrl + F1) 拼写检查

问题描述:  不知道大家有没有发现,在我们用 IDEA 敲击代码的时候,经常会发现如下所示的现象:    报出的错误:Spellchecker inspection helps locate typos and misspelling in your code,comments and literals,and fix them in one click  翻译之后得出的是:...

2019-05-25 07:09:00 1538

转载 【IDEA】URI is not registered (Settings | Languages & Frameworks | Schemas and DTDs

在idea中,当初手动第一次写 spring 配置文件的时候,出现了上面这个错误。错误提示如下:很明显的两行错误提示。将鼠标放在上面,软件会提示 “URI is not registered ( Setting | Project Settings | Schemas and DTDs )”,翻译过来就是统一资源标识符没有注册。解决的具体方法如下:File --> ...

2019-05-24 23:51:00 118

转载 【IDEA】创建的 maven 项目,右键 New --> XML Configuration File 时,无 Spring Config 选项...

问题描述:  创建的maven项目,右键 New -> XML Configuration File 时,无 Spring Config 选项。即没有下图中的选项:  解决方法:  导入spring 相关的依赖,比如:spring-context-support 或者spring-webmvc,如下图:  查看效果:    如果Spring C...

2019-05-24 23:45:00 1456

转载 【IDEA】关于 IDEA 中新建 web 项目的 webapp 文件夹没有小蓝点 ,启动服务,访问不到解决方案...

问题描述:  新建的 maven 的 Module 项目,webapp 文件夹也是在创建完项目后手动添加的,出现了 webapp 文件夹不能被识别的情况。解决方案:第一步: 选中项目按 F4 键,找到你的项目 或者 选中项目右键,然后点击Open Module Settings  第二步: 选中对应项目下的 Web,如果没有Web, 点击左上角的加号,找到 ...

2019-05-24 22:31:00 873

转载 06_TF-IDF算法代码示例

TF-IDF算法代码示例0.引入依赖1.定义数据和预处理2.进行词数统计3.计算词频 TF4.计算逆文档频率 IDF5.计算 TF-IDFTF-IDF算法代码示例0.引入依赖importnumpyasnp#数值计算、矩阵运算、向量运算importpandasaspd#数值分析、科学计算1.定义数据和预处理#定义文档docA='The...

2019-05-18 08:17:00 155

转载 07_LFM--梯度下降法--实现基于模型的协同过滤

LFM--梯度下降法--实现基于模型的协同过滤0.引入依赖1.数据准备2.算法的实现3.测试LFM--梯度下降法--实现基于模型的协同过滤0.引入依赖importnumpyasnp#数值计算、矩阵运算、向量运算importpandasaspd#数值分析、科学计算1.数据准备#定义评分矩阵RR=np.array([[4,0,2,...

2019-05-18 08:17:00 179

转载 05_无监督学习--聚类模型--K 均值

无监督学习--聚类模型--K 均值0.引入依赖1.数据的加载和预处理2.算法实现3.测试无监督学习--聚类模型--K 均值0.引入依赖importnumpyasnpimportmatplotlib.pyplotasplt#这里直接sklearn里的数据集fromsklearn.datasets.samples_generatorimportma...

2019-05-18 08:16:00 165

转载 03_有监督学习--简单线性回归模型(调用 sklearn 库代码实现)

有监督学习--简单线性回归模型(调用 sklearn 库代码实现)0.引入依赖1.导入数据(data.csv)2.定义损失函数3.导入机器学习库 sklearn4.测试:运行算法,从训练好的模型中提取出系数和截距5.画出拟合曲线6.附录-测试数据有监督学习--简单线性回归模型(调用 sklearn 库代码实现)0.引入依赖importnumpyasnpimpor...

2019-05-18 08:15:00 237

转载 04_有监督学习--分类模型--K 近邻(kNN)

有监督学习--分类模型--K 近邻(kNN)0.引入依赖1.数据的加载和预处理2.核心算法实现3.测试4.自动化测试有监督学习--分类模型--K 近邻(kNN)0.引入依赖importnumpyasnp#数值计算、矩阵运算、向量运算importpandasaspd#数值分析、科学计算#这里直接引入sklearn里的数据集-->iri...

2019-05-18 08:15:00 165

转载 02_有监督学习--简单线性回归模型(梯度下降法代码实现)

有监督学习--简单线性回归模型(梯度下降法代码实现)0.引入依赖1.导入数据(data.csv)2.定义损失函数3.定义模型的超参数4.定义核心梯度下降模型函数5.测试:运行梯度下降算法,计算最优的 w 和 b6.画出拟合曲线7.附录-测试数据有监督学习--简单线性回归模型(梯度下降法代码实现)0.引入依赖importnumpyasnpimportmatplo...

2019-05-18 08:14:00 116

转载 01_有监督学习--简单线性回归模型(最小二乘法代码实现)

有监督学习--简单线性回归模型(最小二乘法代码实现)0.引入依赖1.导入数据(data.csv)2.定义损失函数3.定义模型拟合函数4.测试:运行最小二乘算法,计算 w 和 b5.画出拟合曲线6.附录-测试数据有监督学习--简单线性回归模型(最小二乘法代码实现)0.引入依赖importnumpyasnpimportmatplotlib.pyplotaspl...

2019-05-18 08:13:00 256

转载 大数据技术之_23_Python核心基础学习_04_ 异常 + 文件(3.5小时)

第七章 异常7.1 异常的简介和异常的处理7.2 异常的传播7.3 异常对象7.4 自定义异常对象第八章 文件8.1 文件--打开8.2 文件--关闭8.3 文件--简单读取8.4 文件--读取大文件8.5 文件--readline8.6 文件--写入8.7 文件--二进制文件8.8 文件--seek() 和 tell()8.9 文件--其他操作第七章 异常7.1 异常的...

2019-05-14 23:03:00 91

转载 大数据技术之_23_Python核心基础学习_02_ 流程控制语句 + 序列(10.5小时)

第三章 流程控制语句3.1 简介3.2 条件判断语句(if 语句)3.2.1 if 语句3.2.2 input 函数3.2.3 if-else 语句3.2.4 if-elif-else 语句3.2.5 if 练习3.3 循环语句(while 语句 + for 语句)3.3.1 while 循环3.2.2 while 练习3.4 循环嵌套3.5 break 和 continue3.6 ...

2019-05-12 23:45:00 581

转载 大数据技术之_23_Python核心基础学习_01_计算机基础知识 + Python 入门 (9.5小时)...

第一章 计算机基础知识1.1 课程介绍1.2 计算机是什么1.3 计算机的组成1.4 计算机的使用方式1.5 windows 的命令行1.6 环境变量(environment variable)1.7 path 环境变量1.8 进制1.9 文本文件和字符集1.10 Sublime Text 3第二章 Python 入门2.1 什么是计算机语言2.2 编译型语言和解释型语言2.3 Py...

2019-05-10 22:38:00 493

转载 大数据技术之_22_MongoDB学习_MongoDB 的简介、下载、安装、启动、配置和关闭 + MongoDB 的基本操作 + Mongoose + 使用 java 对 MongoDB 增删改查...

第一章 数据库的概述1.1 什么是数据库1.2 数据库分类第二章 MongoDB 的简介、下载、安装、启动、配置和关闭2.1 MongoDB 简介2.2 下载 MongoDB2.3 安装 MongoDB2.4 启动 MongoDB2.5 配置 MongoDB 的 windows 服务2.6 关闭 MongoDB第三章 MongoDB 的基本操作3.1 MongoDB 的基本概念3.2...

2019-05-10 10:13:00 475

转载 大数据技术之_21_Redis学习_02_解析 Redis 配置文件 redis.conf + Redis 的持久化 + Redis 的事务 + Redis 的复制(Master/Slave)+ Re...

第四章 解析 Redis 配置文件 redis.conf4.1 Units 单位4.2 INCLUDES 包含4.3 GENERAL 通用4.4 SNAPSHOTTING 快照4.5 SECURITY 安全4.6 LIMITS 限制4.7 APPEND ONLY MODE 追加4.8 常见配置 redis.conf 介绍第五章 Redis 的持久化第六章 Redis 的事务第七章 R...

2019-05-08 15:32:00 161

转载 大数据技术之_21_Redis学习_01_NoSQL 入门概述 + Redis 入门介绍、安装 + Redis 的5种数据类型...

第一章 NoSQL 入门概述1.1 入门概述1.1.1 单机 MySQL 的美好年代1.1.2 Memcached(缓存) + MySQL + 垂直拆分1.1.3 MySQL 主从复制--读写分离1.1.4 分表分库 + 水平拆分 + MySQL 集群1.1.5 MySQL 的扩展性瓶颈1.1.6 今天是什么样子?1.1.7 为什么用 NoSQL?1.2 NoSQL 是什么?1.3 ...

2019-05-07 15:43:00 250

转载 大数据技术之_20_Elasticsearch学习_02_ELK 简介以及新旧版架构介绍

1. ELK 简单介绍2. ELK 的用途3. ELK 的优点4. ELK 旧版架构5. ELK 新版架构6. 新版 ELK 架构介绍1. ELK 简单介绍  ELK 是 elastic(美国数据搜索软件初创公司) 公司提供的一套完整的日志收集、日志搜索分析、展示解决方案,是三个产品的首字母缩写。这三个产品分别是 ElasticSearch、Logstash 和 Kiba...

2019-05-06 00:50:00 187

转载 大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作...

一 概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 Elasticsearch 的特点1.7 Elasticsearch 的核心概念1.7.1 近实时1.7.2 Cluster(集群)1.7.3 Node(节点)1.7.4 Index(...

2019-05-06 00:42:00 143

转载 大数据技术之_19_Spark学习_08_Spark 机器学习_02_凸优化算法 + 线性回归算法 + FPGrowth 关联规则算法 + 决策树 + 随机森林算法...

第4章 凸优化算法4.1 梯度下降4.2 牛顿法4.3 拟牛顿法4.4 BFGS 算法第5章 L1、L2 正则化5.1 从经验风险最小化到结构经验最小化5.2 范数与正则项5.3 贝叶斯先验第6章 线性回归算法6.1 数学模型6.2 线性回归的应用6.2 Spark MLlib 实现第7章 FPGrowth 关联规则算法7.1算法思想7.2 Spark MLlib 实现第8章 协同过...

2019-05-05 10:55:00 764

转载 大数据技术之_19_Spark学习_08_Spark 机器学习_01_机器学习概述 + 机器学习的相关概念 + 算法常用指标...

第1章 机器学习概述1.1 机器学习是啥?1.2 机器学习能干啥?1.3 机器学习有啥?1.4 机器学习怎么用?第2章 机器学习的相关概念2.1 数据集2.2 泛化能力2.3 过拟合和欠拟合2.4 维度、特征2.5 模型2.6 学习第3章 算法常用指标3.1 精确率和召回率3.2 TPR、FPR & TNR3.3 综合评价指标 F-measure3.4 其他一些评估参数3.5...

2019-05-04 16:40:00 235

转载 大数据技术之_19_Spark学习_07_Spark 性能调优小结

========== Spark 的监控方式 ==========1、Spark Web UI Spark 内置应用运行监控工具(提供了应用运行层面的主要信息--重要)2、Ganglia 分析集群的使用状况和资源瓶颈(提供了集群的使用状况--资源瓶颈--重要)3、Nmon 主机 CPU、网络、...

2019-05-04 12:10:00 111

转载 大数据技术之_19_Spark学习_06_Spark 源码解析小结

========== Spark 通信架构 ==========1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间无法通信,即 akka 兼容性问题。2、...

2019-05-02 21:00:00 122

转载 大数据技术之_19_Spark学习_05_Spark GraphX 应用解析小结

========== Spark GraphX 概述 ==========1、Spark GraphX是什么?  (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。  (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可以图的形式来表示。2、Spark G...

2019-04-30 19:48:00 206

转载 大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结

========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark Streaming 我们主要关注:  (1)...

2019-04-29 18:57:00 161

转载 大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化...

第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章 运行 Spark Streaming第3章 架构与抽象第4章 Spark Streaming 解析4.1 初始化 StreamingContext4.2 什么是 DStreams4.3 DStr...

2019-04-29 18:42:00 1256

转载 Linux学习_012_Centos 6.8 安装 Netcat

测试中,需要通过 Netcat 发送数据。配置环境:CentOS 6.81、下载安装包到指定目录,例如本博主的是:/opt/software/wgethttps://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0.7.1.tar.gz2、解压缩文件到指定目录(注意:要先创建 /opt/modul...

2019-04-28 17:42:00 101

转载 大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。2、Spark SQL 的特点:  (1)和 Spark Core 的无缝集成,可以在写整个 RDD 应用的时候,配合 Spark SQL 来实现逻辑。...

2019-04-28 11:20:00 187

转载 大数据技术之_19_Spark学习_02_Spark Core 应用解析小结

1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。abstractclassRDD[T:ClassTag](@transientprivatevar_sc:SparkContext,@transientprivatevardeps:Seq[Dependency[_]])...

2019-04-26 23:21:00 126

转载 【转载】Google 后 Hadoop 时代的新 “三驾马车” -- Caffeine(搜索)、Pregel(图计算)、Dremel(查询)...

摘要:Google 在 2003 年到 2004 年公布了关于 GFS、MapReduce 和 BigTable 三篇技术论文(旧三驾马车),这也成为后来云计算发展的重要基石,如今 Google 在后 Hadoop 时代的新“三驾马车” -- Caffeine、Pregel、Dremel 再一次影响着全球大数据技术的发展潮流。Mike Olson(迈克尔·奥尔森) 是 H...

2019-04-23 19:05:00 85

转载 大数据技术之_19_Spark学习_01_Spark 基础解析小结(无图片)

1、准备安装包2、Spark Standalone 即独立模式  2.1、解压安装包到你安装的目录。  2.2、拷贝 conf 目录下的 slaves 文件,将 slave 节点的 hostname 写在文件中,每行一个。  2.3、拷贝 conf 目录下的 spark-env.sh 文件,将 SPARK_MASTER_HOST 和 SPARK_MASTER_PORT 指定。  ...

2019-04-22 12:15:00 80

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除