- 博客(348)
- 资源 (50)
- 收藏
- 关注
原创 轻松入门自然语言处理系列 12 隐马尔可夫模型
本文主要介绍了隐马尔可夫模型:HMM基础,包含时间序列数据和HMM基本概念;HMM中的参数及Inference细节,包含HMM中的参数和基于维特比算法的预测;HMM中的参数估计,包含ForwardBackward算法、Complete Case、Incomplete Case和HMM的参数求解。HMM是很流行的序列模型,广泛应用在语音识别、词性标注、实体识别等问题中,其参数估计实际上是模型训练过程,需要估计3类不同的参数,要用到EM算法,而且EM算法的结果依赖于初始化结果,不同的初始化的结果可能不同。...
2022-07-25 10:03:48
570
2
原创 轻松入门自然语言处理系列 专题7 基于FastText的文本分类
本文主要介绍了基于FastText的文本分类:论文解读,论文《Bag of Tricks for Efficient Text Classification》是2017年发布于ACL的文章,目前引用数为3806,主要是基于FastText的文本分类,提出了很多文本分类技巧;FastText源码解读,包含fasttext、model、dictionary和loss模块;使用FastText实现文本分类,包含词袋(词频、tf-idf)、Word2Vec、LDA模型、FastText,不同模型效果有所差别。...
2022-06-26 22:26:38
632
原创 轻松入门自然语言处理系列 专题6 代码实战──基于语言模型的拼写纠错
本文主要介绍了代码实战,即基于语言模型的拼写纠错:拼写纠错任务概述,在实现QA或者检索系统时,需要用户给出输入,用户在输入问题的时候,有可能输入拼写错误的单词,一个完备的系统需要能够及时捕获拼写错误,并进行纠正,纠错模块是基于Noisy Channel Model噪音通道模型,整个实现思路为1.获取候选集合,2.筛选出有效的单词,3.找到使得条件概率最大的正确写法;拼写纠错实现,包含构建词典、构建候选集、计算各个条件概率、实现纠错主函数;语法纠错可以用到机器翻译、拼写纠错、语音识别、密码破解等任务中。...
2022-06-20 23:06:31
677
2
原创 轻松入门自然语言处理系列 11 语言模型
本文主要介绍了语言模型:语言模型基础,包含语言模型概念、计算语言模型的概率和马尔科夫假设;语言模型训练,包含不同的语言模型和语言模型的训练;语言模型的评估;语言模型的平滑,包含训练语言模型存在的问题、Add-one Smoothing、Add-K Smoothing和Interpolation插值。语言模型的核心就是判断一句话从语法上来看是否通顺,具体的判断方法就是使用概率计算来判断,具体会用到链式法则和马尔可夫假设,语言模型的主要作用就是保证文本的语法结构,语言模型在NLP中占据着极为重要的地位。...
2022-06-12 21:58:41
467
2
原创 轻松入门自然语言处理系列 项目2 搭建智能问答系统
本文主要介绍了NLP实战项目,基于检索式的智能问答系统:智能问答系统基础,包含问答系统架构(问答系统基本原理和改进流程)、各模块剖析(倒排表和意图识别模块);项目概况,包含项目描述、数据描述和项目框架;核心技术,包含FastText、倒排表和Bert;项目实施,包含文本预处理、基于FastText的意图分类、召回Retieval和排序;项目总结。智能客服系统分为检索式和生成式,检索式需要依赖于相似度计算和排序、倒排表和意图识别模块,给出问题后,找到与其最相似的问题对应的答案,与生成式相比,实现较简单。...
2022-06-06 09:09:53
734
3
原创 小白总结Transformer模型要点
本文总结了Transformer模型的要点:模型架构,包括背景知识、整体架构、Embedding和位置编码、多头注意力机制、残差连接、LayerNorm和Decoder;疑问汇总,包含常见的Attention计算方法、为什么可以用正弦曲线表示位置编码、序列转导模型概念、原文3个评价指标;模型实现,包含实现思路和实现过程;延伸学习,包含残差连接、KL散度和contiguous。Transformer是Seq2Seq模型中一个跨时代的模型,使用自注意力代替了LSTM,实现了效果和效率的提升,地位十分重要。...
2022-06-04 11:01:45
2260
3
原创 轻松入门自然语言处理系列 专题5 代码实战——用Python从零实现SkipGram
本文主要介绍了代码实战──用Python从零实现SkipGram:Word2Vec是最基本、最经典的词向量模型,主要有Skip-Gram和CBOW两种模型,从直观上理解,Skip-Gram是给定输入的单词来预测上下文,CBOW是给定上下文来预测输入的单词,为了对输出层简化、减少计算量,有2种方式,一种是建立霍夫曼树进行层次Softmax,另一种是负采样;模型实现步骤包括:1.构建词表vocab,2.初始化霍夫曼树或unigram表,3.进行前向和反向优化计算,4.保存训练好的模型参数到文件,5.输出。
2022-05-30 22:32:22
756
原创 轻松入门自然语言处理系列 专题4 词向量的使用及评估
本文主要介绍了词向量的使用及评估:GloVe是斯坦福大学NLP组提出的预训练模型,使用简单方便,被经常用于NLP任务的初始化Embedding,使用时可以选择开源提供的词向量文件,gensim库提供了很多词向量的API;词向量可视化需要先构建词组,同时因为词向量的维度一般很高、不能直接可视化,因此需要先降维,将高维向量降维到低维空间中,常见的降维方式包括PCA和TSNE两种;除了传统的词向量模型,也有预训练好的词向量模型,常用的有Transformers库,可以直接使用,也可以根据下游的任务进行微调。
2022-05-28 16:42:29
523
原创 轻松入门自然语言处理系列 09 词向量技术
本文主要介绍了词向量技术:词向量基础,包含单词的表示、从独热编码到分布式表示和词向量的训练;SkipGram模型详解,包含训练词向量的思路、SkipGram的目标函数和SkipGram的负采样;其他词向量技术,包含矩阵分解法、GloVe向量、高斯词嵌入(Gaussian Embedding)和词向量总结;论文解读,基于SkipGram的Airbnb房屋推荐《Real-time Personalization using Embeddings for Search Ranking at Airbnb》。
2022-05-22 21:41:11
560
原创 轻松入门自然语言处理系列 项目1 使用豆瓣评论进行情感预测
本文主要介绍了基于豆瓣评论的情感预测,对给定的电影评论判断情感为积极还是消极:项目概况,包含项目描述、数据描述和项目框架;核心技术,包含中文分词、TF-IDF、Word2vec、BERT Embedding和句子向量;项目实施,包含读取数据并进行数据预处理、文本处理、划分数据集、文本的向量化、模型训练和评估和实验结果;项目总结,包含数据标签分布情况、句子向量处理、模型融合。本文基于词向量来判断句子的情感,整个项目过程,从数据预处理、模型建立和训练预测都部分的质量都关系到项目的熬过,因此每一步都要做好。...
2022-05-18 09:28:26
655
2
原创 轻松入门自然语言处理系列 07 文本表示
本文主要介绍了文本表示:文本表示基础,包含单词的表示(独热编码和词向量)、句子的表示(Boolean Vector、Count Vector)和tf-idf向量(文档中单词的频率与逆文本频率);文本相似度,包括欧氏距离(距离越大相似度越小、距离越小相似度越大)、余弦相似度(既衡量了向量的大小,又衡量了向量的方向);词向量基础,包含单词之间的相似度(独热编码存在稀疏性,不能计算相似度)、词向量基础(一种分布式的表示方式,用来表示单词的含义,其质量取决于词向量训练模型)和句子向量(可以对单词向量取平均)。...
2022-05-06 22:14:11
700
原创 轻松入门自然语言处理系列 专题3 中文文本处理
本文主要介绍了中文文本处理:中文文本处理流程,包含文本数据准备、数据清洗(1.正则表达式,2.全角与半角的转化,3.处理表情字符,4.繁体中文与简体中文的转换,5.大小写数字和大小写字母的统一,除去数据中的非文本部分,包含HTML标签、emoji的处理、正则表达式的使用等)、文本分词、文本分析(词频统计、TF-IDF等);中文文本预处理案例,包含文本数据准备、数据清洗(1.全角与半角转化,2.大小写转化,3.去除表情字符,4.正则表达式,5.中文简体和繁体的转换)、文本分词和去掉停用词和文本分析举例。
2022-04-24 21:53:45
639
1
原创 轻松入门自然语言处理系列 06 文本处理
本文主要讲解了NLP任务中的上游任务文本处理:文本分析流程与分词,包括文本分析流程(包括原始文本、分词、清洗、标准化、特征提取和建模)、分词工具的使用(主要针对中文,包含jieba、snownlp、LTP、HanLP等)、最大匹配算法、考虑语义的一种分词方法;停用词与词的标准化,包含词的过滤和词的标准化,过滤单词有助于减小词库的大小、提高训练的效率,词的标准化有2种算法,为Stemming和Lemmazation;拼写纠错,包含拼写纠错(包含拼写错误和语法错误两类)和循环词库的问题及利用编辑距离改进。
2022-04-18 09:58:12
594
2
原创 轻松入门自然语言处理系列 专题2 Beating Kaggle the Easy Way——For Beginners
本文主要介绍了针对初学者轻松战胜Kaggle的方法:数据科学流程,包括EDA(Exploratory Data Analysis)、Data Preprocessing、Feature Engineering(包含特征选择和特征编码)、Model Selection、Ensemble Generation集成(Bagging和Boosting)等过程;泰坦尼克号案例,主要任务是根据乘客的数据(包含了性别、票类、年龄等特征)来预测用户是否幸存,包含了数据预览、数据预处理、模型训练、预测并保存结果等过程。
2022-04-10 22:31:54
410
原创 轻松入门自然语言处理系列 自然语言处理基础答疑和案例
本文主要介绍了自然语言处理基础答疑和案例:在真实的建模场景中,如何能给模型加入先验知识,包括(1)借助预训练模型,把网络的weight替换成一个在另外一个任务上pretrain好的模型weight,而不是选择随机权重作为初始权重;(2)借助输入,借助输入其实就是借助人类的先验知识;(3)借助模型设计,使用深度网络结构本身就是使用了先验知识,是把数据结构用所构造的深度网络来表达;(4)借助特征工程的思想,明确且直观地将人类的先验知识进行表达。算法设计问题,和具体业务相关,对业务的理解越深入,设计越合理。
2022-04-09 22:38:47
1350
原创 Jupyter Lab设置切换虚拟环境
在进行数据科学任务时,一般会用到交互式开发环境,即Jupyter Notebook,Jupyter lab是Jupyter Notebook的升级版,功能更强大、更好用,但是默认情况下,是不能切换虚拟环境的,只有自带的主环境,对应于conda中的base,而无法显示已经创建好的虚拟环境,此时可以按照以下步骤配置:(1)创建虚拟环境;(2)激活进入虚拟环境;(3)将虚拟环境写入Jupyter的kernel中;(4)在Jupyter Lab中确认,刷新Jupyter Lab的页面,即可查看和切换虚拟环境。
2022-04-06 13:00:40
6158
原创 轻松入门自然语言处理系列 05 机器学习基础
本文主要介绍了机器学习基础:理解朴素贝叶斯,包括初试朴素贝叶斯等;朴素贝叶斯的训练,包括计算单词的概率等;朴素贝叶斯的优化,包括朴素贝叶斯的最大似然估计、带限制的优化等;认识和理解决策树,包括决策树的应用、决策树的形态与决策边界等;决策树中的不确定性,包括好的特征、信息熵不确定性等;决策树的过拟合,包括决策树表现与节点数目之间的关系等;集成模型随机森林,包括集成模型概念等;随机森林与方差分析,包括方差和稳定性、方差和稳定性举例等;随机森林的训练,包括核心思想和构造等;随机森林的过拟合,包括参数和案例。
2022-04-01 21:44:43
1765
原创 轻松入门自然语言处理系列 04 模型的泛化
本文主要介绍了模型的泛化:什么是过拟合,包括逻辑回归参数、数据线性可分的情况、控制参数的大小和过拟合概念;如何防止过拟合,包括模型的泛化能力、模型的过拟合、模型复杂度与过拟合和正则的作用;L1与L2正则,包括常见的2种正则、L1和L2正则的本质、L1的不足之处和交叉验证;正则与先验的关系,包括最大后验估计、先验与正则之间的关系和最大后验趋近于最大似然;案例之LR中的调参,包括常见模型的超参数、GridSearchCV的使用和逻辑模型调参。过拟合是机器学习中一个常见的现象,需要防止以提升模型的泛化能力。
2022-03-30 09:54:08
462
原创 轻松入门自然语言处理系列 专题1 AI工程师面试必备考题之关于逻辑回归的一切
本文主要介绍了AI工程师面试必备考题之关于逻辑回归的一切:逻辑回归总结,包括逻辑回归的概念、作用、假设;面试题,包括LR主要解决什么问题、目的是什么,LR推导,LR的求解方法,多分类问题如何解决,线性回归与逻辑回归的区别,特征的选择,如何解决过拟合现象,什么是特征的离散化和特征交叉、逻辑回归对特征进行离散化的原因,逻辑回归的特征系数的绝对值是否可以认为是特征的重要性,数据归一化对逻辑回归起到的作用,逻辑模型的优缺点,逻辑回归与MLP的关系。LR是最基本、最重要的分类模型之一,经常被用作分类任务的基准。
2022-03-29 20:06:51
1266
原创 轻松入门自然语言处理系列 03 机器学习基础-逻辑回归
本文主要介绍了机器学习的基础模型逻辑回归模型:逻辑回归中的条件概率,包括逻辑回归的应用、理解基准、分类问题、逻辑函数和样本条件概率;逻辑回归的目标函数,包括最大似然估计、逻辑回归的似然函数和逻辑回归的最大似然估计;梯度下降法,包括求解函数的最小值最大值、梯度下降、逻辑函数求导和逻辑回归的梯度下降法;随机梯度下降法,包括梯度下降法的缺点、随机梯度下降法、小批量梯度下降法、基于小批量梯度下降法实现逻辑回归;案例-预测银行客户是否会开设定期存款账户,包括问题描述、数据理解、数据预处理、模型训练、模型评估等。
2022-03-19 21:44:30
2190
2
原创 轻松入门自然语言处理系列 02 数据结构与算法基础
本文主要介绍了数据结构与算法的基础:数据结构与算法的重要性,包括复杂度分析和递归函数的复杂度,算法的复杂度分为时间复杂度和空间复杂度,分别从时间和内存空间上来衡量算法,每一个小的细节都会决定整个程序的效率;动态规划算法,包括动态规划与自然语言处理、最大递增子串和换硬币问题,NLP中经常用到动态规划的思想,例如编辑距离、维特比算法等;DTW算法和应用,包括DTW(Dynamic Time Warping)算法介绍、DTW的应用场景和DTW算法实现,DTW算法可以用来计算两个长度不相等的时间序列的相似度。
2022-03-15 09:29:25
450
原创 轻松入门自然语言处理系列 01 自然语言处理概述
本文主要介绍了自然语言处理概述:专栏初衷和NLP前景,包括专栏的初衷、NLP岗位待遇和如何学习NLP;自然语言处理的概念,包括什么是自然语言处理、为什么自然语言处理难和一个简单机器翻译案例;自然语言处理的应用,包括智能问答系统、文本生成、机器翻译、情感分析、聊天机器人、虚假新闻检测、文本主题分类和信息抽取;自然语言处理核心技术,包括自然语言处理技术的三个维度、自然语言处理关键技术(分词、词性分析、语义理解、命名实体识别、依存文法分析、句法分析)和自然语言处理技术概览。自然语言处理是一个不错的选择方向。
2022-03-09 14:31:04
494
原创 轻松入门自然语言处理系列 00 专栏介绍
近年来,人工智能被越来越多地应用到各个领域、极大地改善了人们的生活,自然语言处理是AI中最新得到很快发展的一个方向,具有很大的行业优势和前景,越早进入这个行业,优势越大。NLP主要包括分词、词性分析、语义理解、命名实体识别、依存文法分析和句法分析等核心技术,被广泛应用到智能问答系统、文本生成、机器翻译、情感分析和文本主题分类等场景中。同时可以肯定,在未来的一段时间内,NLP依然会保持这样的增长态势,因此掌握NLP技术显得更加重要和有吸引力。因此开设了自然语言处理入门系列专栏,让小白也能轻松入门NLP。
2022-03-09 14:20:32
1437
2
原创 算法与数据结构全阶班-左程云版(二)基础阶段之4.堆和比较器
本文主要介绍了堆和比较器:堆结构就是用数组实现的完全二叉树结构,每棵子树的最大值都在顶部是大根堆,每棵子树的最小值都在顶部是小根堆,有heapInsert与heapify操作,时间复杂度分别为O(N*logN)和O(N),堆排序实现了O(N*LogN)的时间复杂度,同时空间复杂度O(1),优先队列的底层就是堆;比较器的实质是重载比较运算符,可以很好的应用在特殊标准的排序上,也可以应用在特殊标准排序的结构上,手写堆结构,因为增加了对象的位置表,所以能够满足动态改信息的需求,可以自己实现堆和对应的比较器。
2022-02-23 15:29:34
545
原创 算法与数据结构全阶班-左程云版(二)基础阶段之3.归并排序和快速排序
本文介绍了2种排序方式:归并排序,思路是整体为递归,左边排好序+右边排好序+ merge让整体有序,也可以用非递归实现,时间复杂度为O(N*logN),额外空间复杂度为O(N),相比于冒泡排序、选择排序和插入排序O(N2)的时间复杂度,归并排序的时间复杂度优化了很多,这是因为减少了比较次数,有很多应用,例如求小和、逆序对等,只要数组中左边的数比右边的数满足某个条件即可进行操作;快速排序有3种方式,普通分区算法,荷兰国旗算法,随机选数与最后一个数交换,再利用荷兰国旗算法,时间复杂度为O(N*logN)。
2022-02-21 21:59:05
1237
1
原创 机器学习常见异常和解决办法汇总
Python有很多机器学习库,在使用的过程中可能会出现各种异常,下面汇总了一些常见的一场和解决办法:sklearn库的LogisticRegression模型训练时警告lbfgs failed to converge (status=1)。sklearn库的LogisticRegression模型使用L1正则报错,需要设置分类器为liblinear。持续更新中...
2022-02-21 20:10:08
1746
原创 算法与数据结构全阶班-左程云版(二)基础阶段之2.链表、栈、队列、递归行为、哈希表和有序表
本文主要介绍了常用的数据结构:链表分为单链表和双向链表,可以实现反转单链表和双链表和删除给定值;栈数据先进后出,队列数据先进先出,队列和栈既可以使用双端队列实现,也可以使用数组实现,数组实现栈较简单,实现队列需要使用循环数组,可以实现返回栈中最小元素的栈,并且为常数时间复杂度,还可以用两个队列实现栈,或者用两个栈实现队列;递归的思想是将一个大的任务分解成小的任务,最后经过整合得到整个问题的解,可以使用Master公式计算出递归的时间复杂度;哈希表时间复杂度为O(1),有序表时间复杂度为O(logN)。
2022-02-18 21:28:56
724
原创 算法与数据结构全阶班-左程云版(二)基础阶段之1.复杂度、对数器、二分法和异或运算
本文主要介绍了复杂度、对数器、二分法和异或运算:评价算法优劣的核心指标包括时间复杂度(流程决定)、额外空间复杂度(流程决定)和常数项时间(实现细节决定);确定算法流程的时间复杂度时,当完成了表达式的建立,只需要保留最高阶项,复杂度是衡量算法流程的复杂程度的一种指标;对数器是检验算法实现正确性的有力工具,可以覆盖几乎所有情况的测试用例,无死角实现对算法的验证;只要构建出能够排除另外一端的逻辑,就可以使用二分,而不一定需要保证数组有序;异或运算可以简记成无进位相加,可以在算法中实现特定功能、加快运算效率。
2022-02-18 11:55:57
1002
原创 算法与数据结构全阶班-左程云版系列目录
左程云俗称左神,是一个刷题7年的算法爱好者,也是马士兵教育的算法授课老师。2014年起专职做程序员算法和数据结构培训、代码面试培训、刷题交流等相关工作,是《程序员代码面试指南–IT名企算法与数据结构题目最优解》的作者。《算法与数据结构全阶班》包括5个系列,分别是算法和数据结构新手班、算法与数据结构基础班、算法数据结构体系学习班、算法与数据结构进阶班和大厂算法和数据结构刷题班,本系列汇总了全阶班的全部题目和解答,同时还穿插了算法与数据结构的笔试和面试技巧,用最通俗易懂的语言争取让每个人都能轻松学懂算法。
2022-02-17 21:52:39
2343
4
原创 Windows11右键菜单太烦人,简单几步即可恢复旧版完整菜单
Windows 11已经推出一段时间了,相比Windows 10,界面确实美观了不少,同时也有很多新的设计。但是并不是每个人都能很快适应这种新设计。被广泛吐槽的一点就是右键菜单的改变,增加了显示更多选项 ,原来的很多右键选项被隐藏起来了,原本经常要用到的很多功能就需要点击显示更多选项才能展开,显然就很麻烦。选择使用修改注册表的方式来还原为原来的右键菜单:先打开注册表;(并找到注册表CLSID路径;右键点击CLSID项,新建一个项,在新建的项上再新建一个项,再双击回车新建项的默认条目,保存重启即可生效。
2022-02-08 18:31:50
31126
原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之6.Impala交互式查询
Impala的核心开发语言是SQL语句,Impala有shell命令行窗口、JDBC等方式来接收SQL语句执行,对于复杂类型分析可以使用C++或者Java来编写UDF函数。Impala的SQL语法高度集成了Apache Hive的HQL语法,Impala支持Hive支持的数据类型以及部分Hive的内置函数。包括3部分:Impala-Shell,分为外部命令和内部命令;Impala SQL语法,与关系型数据库的SQL语法类似;导入数据以及JDBC方式查询Impala,有多种数据导入方式,也支持接口编程。
2021-11-28 17:33:40
1690
1
原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之5.即席查询Impala介绍及入门使用
本文主要介绍了即席查询工具Impala及入门使用:Impala概述,包括Impala的概念和优势、Impala的缺点及适用场景;Impala的安装与入门,包括准备工作、制作本地yum源、安装Impala、Impala启动和完善和入门案例;Impala架构原理,包括Impala组件和Impala单机执行计划和分布式执行计划。Impala是Cloudera提供的一款开源的针对HDFS和HBASE中的PB级别数据进行交互式实时查询,参考了Google的Dremel,基于大规模并行处理实现,最大的特点是快速。
2021-11-21 21:06:24
1793
1
原创 PyTorch使用常见异常和解决办法汇总
PyTorch是一个经常用到的机器学习框架,在使用时可能会出现一些异常,这里总结一些常用的异常和解决办法:使用conda安装PyTorch后同时在Jupyter导入失败No module named ‘torch’,需要安装nb_conda_kernels;使用张量时报错expected scalar type Double but found Float,需要将数据类型转为float32;创建Embedding时报错IndexError: index out of range of self。
2021-11-21 17:23:14
3022
1
原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作
本文主要介绍了Hive的DDL、DQL和数据操作:HQL操作之DDL命令,包括数据库操作、建表语法、内部表及外部表、分区表、分桶表、修改表和删除表;HQL操作之数据操作,包括load装载数据和insert插入数据;HQL操作之DQL命令,包括简单查询、简单子句、group by分组子句、表连接、order by排序子句、sort by排序、distribute by和cluster by排序。Hive的DDL、DQL、导入数据等方面与关系型数据库存在一定的相似性,因此入手相对容易,但是也存在很多不同。
2021-11-14 20:38:07
2560
原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之3.数据仓库工具Hive基础
本文主要介绍了数据仓库工具Hive基础,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,是将SQL查询语句转化为MR任务进行计算:Hive概述,包括数仓工具Hive的产生背景、数仓工具Hive与RDBMS对比、数仓工具Hive的优缺点和数仓工具Hive的架构原理;Hive安装与配置,包括安装准备、安装MySQL元数据库、Hive的安装与配置、Hive安装的注意事项和参数配置;数据类型与文件格式,包括基本数据类型及转换、集合数据类型和Hive文本文件数据编码及读时模式。
2021-11-07 11:32:54
8689
原创 大数据开发基础入门与项目实战(二)Java Web数据可视化之4.Linux基本操作命令和功能
本文主要介绍了Linux基本操作命令和功能:常用Linux命令的基本使用,包括Linux常用快捷键、命令格式及帮助手册使用、切换目录、展示目录、创建和删除目录、创建和删除文件、复制与剪切、cat查看文件、more和less命令查看文件、重定向输出符号、管道符即逻辑控制符&&和history查看历史;打包和压缩,包括打tar包和解tar包、压缩与解压缩;时间日期;搜索查找,包括find查找和grep过滤查找;vi编辑器,包括vi编辑器的使用和vi编辑器复制和剪切。掌握操作命令是熟悉使用Linux的基础。
2021-09-08 21:39:10
664
3
原创 大数据开发基础入门与项目实战(二)Java Web数据可视化之3.Linux概述、安装和结构
本文主要介绍了Linux概述、安装和结构:Linux概述,包括Linux简介和Linux的应用领域及版本介绍;安装Linux,包括VMWare的安装、使用VMWare构建虚拟机器、安装CentOS操作系统、配置静态IP、给虚拟机设置快照和客户端连接工具的介绍和使用;Linux结构,包括Linux组成和Linux目录结构。Linux is not Unix,Linux是一套免费使用和自由传播的类Unix操作系统,有很多发行版,包括Ubuntu、RedHat和CentOS,有着开源的特点和强大完善的功能。
2021-09-07 22:13:29
523
2
原创 Hadoop开发常见异常及解决办法总结
Hadoop开发过程中会遇到一些异常,总结常见的异常及解决办法如下:winutils.exe error;停止Yarn提示no rm to stop;编译源码报错没有 @return;Hive自定义UDF报错Failure to find org.pentaho;元数据配置内嵌模式报错;编译Hue cannot find -lcrypto;mysql_config not found;启动Impala时报错Unit not found;安装Impala后启动HDFS报错IOException。持续更新...
2021-09-06 13:10:56
1764
原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之2.HDFS分布式文件系统
本文主要介绍了HDFS分布式文件系统:HDFS特点;命令行和API操作HDFS,包括Shell命令行客户端、API客户端连接HDFS的两种方式、API客户端上传下载文件、API客户端文件详情及文件类型判断、API客户端IO流操作和API客户端IO流seek读取;HDFS读写机制解析;HDFS元数据管理机制,包括Namenode、Fsimage及Edits编辑日志、2NN及CheckPoint等;Hadoop限额、归档及集群安全模式;日志采集案例,包括需求分析、调度功能实现、采集上传功能实现和程序调优。
2021-09-04 21:49:36
662
4
原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之1.Hadoop简介及Apache Hadoop完全分布式集群搭建
本文主要介绍了Hadoop简介及Apache Hadoop完全分布式集群搭建:大数据简介,包括知识体系、大数据定义及应用场景和大数据发展趋势及从业人员发展路线等;Hadoop简介,包括Hadoop概念、起源、特点、发行版本和优缺点等;Hadoop的重要组成,狭义包括HDFS框架、MapReduce框架和Yarn框架;Apache Hadoop 完全分布式集群搭建,包括虚拟机环境准备、环境变量配置、集群规划实施、编写集群分发脚本、集群启动(单节点启动、集群群起和集群停止)、集群测试和历史日志服务器配置。
2021-09-03 22:32:51
1789
7
SpringBoot项目-聚食集商城分为聚食集商城后台管理系统和聚食集商城系统
2024-01-04
分布式项目谷粒商城,前后端分离,前端基于Vue+ElementUI,后端基于SpringBoot+Mybatis+Mysql
2024-01-04
仿写乐优商城的后端 rest风格的大型综合电商项目 分布式 微服务 基于springboot springcloud 技术
2024-01-04
宠物商城ssm springboot+mybatis+mysql.zip
2024-01-04
二手交易平台,校园二手书籍交易,社区二手交易平台,基于SpringBoot的二手商城系统,毕业设计。.zip
2024-01-04
多端小程序商城、App商城,使用Java开发,SpringBoot框架、MyBatis-plus持久层框架、Redis作为缓存
2024-01-04
毕业设计项目,网上商城项目(SpringBoot).zip
2024-01-04
毕业设计项目,网上商城类型(SpringBoot).zip
2024-01-04
world-cloud-shop是一个电商项目,后端采用微服务实现,主要采用SpringBoot+MyBatis实现
2024-01-04
毕设 服装商城 Springboot+JPA 后端.zip
2024-01-04
vue+springboot二手商城项目.zip
2024-01-04
SpringBoot实现天猫商城
2024-01-04
vue+jpa+mysql+springboot 的校园二手商城.zip
2024-01-04
springboot实现 社区拼购商城.zip
2024-01-04
springboot商城.zip
2024-01-04
SpringBoot带有前后台的商城 前后端不分离.zip
2024-01-04
springboot+vue的蛋糕商城.zip
2024-01-04
springboot的微信商城.zip
2024-01-04
Springboot+Dubbo 实现B2C商城.zip
2024-01-04
springboot+mybatis+shiro的电商书城系统.zip
2024-01-04
教务管理系统,解放教师们的双手.zip
2024-01-09
基于Java Spring的教务管理系统、学生管理系统、课表查询系统,包含数据库文件,采用了SSM
2024-01-09
教务管理系统——java&sqlserver.zip
2024-01-09
基于java开发的项目--springboot+mybatis教务管理系统.zip
2024-01-09
教务管理系统(Java编码).zip
2024-01-09
教务公告信息管理系统-基于JAVA SSM框架开发(数据库课程设计作业).zip
2024-01-09
基于Java的高校教务管理系统的设计与开发.zip
2024-01-09
基于Java和SpringBoot的教务管理系统、学生管理系统、课表查询系统 (Spring、SpringBoot)
2024-01-09
基于JAVA的SSM框架的教务管理系统.zip
2024-01-09
基于Java web的教务管理系统设计与实现.zip
2024-01-09
基于java SSM的教材管理系统教务系统.zip
2024-01-09
基于JAVA SpringBoot和Vue教学管理教务管理系统.zip
2024-01-09
高校教务管理系统(JavaWeb技术).zip
2024-01-09
octopus高校教学综合平台,主要用于对教师,学生,管理的信息管理,课程管理,专业信息管理,班级管理
2024-01-09
mall-swarm是一套微服务商城系统,采用了Spring Cloud、Spring Boot等,提供基于Vue的管理后台方
2024-01-09
JAVA语言 教务登记查询系统,分为管理员模式和学生模式,功能有管理员添加删减学生、登记学生成绩、查询学生情况
2024-01-09
Java基于SSM教务选课成绩管理系统设计毕业源码案例设计.zip
2024-01-09
JAVA+AS+SQLite+安卓课设教务管理系统.zip
2024-01-09
Java程序员所需要掌握的核心知识、面试首选、JavaGuide、免费的计算机编程类中文书籍
2024-01-09
冰激凌内容管理系统,实现MacWK资源站,社区图片视频圈子CMS,适合做资讯商城、社区论坛、聊天交友 社区、博客、圈子
2024-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅