自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

CUFEECR的博客

记录项目实战、学习笔记、经验技巧、异常处理等,在学习和记录中进步。

  • 博客(309)
  • 资源 (50)
  • 收藏
  • 关注

原创 轻松入门自然语言处理系列 专题8 源码解读──基于HMM的结巴分词

本文主要介绍了基于HMM模型的结巴分词的源码解读:jiaba分词总览,分词策略是基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,并采用了动态规划查找最大概率路径;源代码分析,cut方法是分词的入口,整体的切分思路是先试用正则表达式进行粗粒度的切分,然后对每一个blk进行具体的分词操作:使用前缀字典实现了词库的存储,提升了处理的效率;生成句子中汉字所有可能成词情况所构成的有向无环图;使用动态规划查找最大概率路径,找出基于词频的最大概率组合;未登录词的处理使用HMM模型。...

2022-07-29 22:35:57 219

原创 轻松入门自然语言处理系列 12 隐马尔可夫模型

本文主要介绍了隐马尔可夫模型:HMM基础,包含时间序列数据和HMM基本概念;HMM中的参数及Inference细节,包含HMM中的参数和基于维特比算法的预测;HMM中的参数估计,包含ForwardBackward算法、Complete Case、Incomplete Case和HMM的参数求解。HMM是很流行的序列模型,广泛应用在语音识别、词性标注、实体识别等问题中,其参数估计实际上是模型训练过程,需要估计3类不同的参数,要用到EM算法,而且EM算法的结果依赖于初始化结果,不同的初始化的结果可能不同。...

2022-07-25 10:03:48 116

原创 轻松入门自然语言处理系列 专题7 基于FastText的文本分类

本文主要介绍了基于FastText的文本分类:论文解读,论文《Bag of Tricks for Efficient Text Classification》是2017年发布于ACL的文章,目前引用数为3806,主要是基于FastText的文本分类,提出了很多文本分类技巧;FastText源码解读,包含fasttext、model、dictionary和loss模块;使用FastText实现文本分类,包含词袋(词频、tf-idf)、Word2Vec、LDA模型、FastText,不同模型效果有所差别。...

2022-06-26 22:26:38 209

原创 轻松入门自然语言处理系列 专题6 代码实战──基于语言模型的拼写纠错

本文主要介绍了代码实战,即基于语言模型的拼写纠错:拼写纠错任务概述,在实现QA或者检索系统时,需要用户给出输入,用户在输入问题的时候,有可能输入拼写错误的单词,一个完备的系统需要能够及时捕获拼写错误,并进行纠正,纠错模块是基于Noisy Channel Model噪音通道模型,整个实现思路为1.获取候选集合,2.筛选出有效的单词,3.找到使得条件概率最大的正确写法;拼写纠错实现,包含构建词典、构建候选集、计算各个条件概率、实现纠错主函数;语法纠错可以用到机器翻译、拼写纠错、语音识别、密码破解等任务中。...

2022-06-20 23:06:31 119 2

原创 轻松入门自然语言处理系列 11 语言模型

本文主要介绍了语言模型:语言模型基础,包含语言模型概念、计算语言模型的概率和马尔科夫假设;语言模型训练,包含不同的语言模型和语言模型的训练;语言模型的评估;语言模型的平滑,包含训练语言模型存在的问题、Add-one Smoothing、Add-K Smoothing和Interpolation插值。语言模型的核心就是判断一句话从语法上来看是否通顺,具体的判断方法就是使用概率计算来判断,具体会用到链式法则和马尔可夫假设,语言模型的主要作用就是保证文本的语法结构,语言模型在NLP中占据着极为重要的地位。...

2022-06-12 21:58:41 126 2

原创 轻松入门自然语言处理系列 项目2 搭建智能问答系统

本文主要介绍了NLP实战项目,基于检索式的智能问答系统:智能问答系统基础,包含问答系统架构(问答系统基本原理和改进流程)、各模块剖析(倒排表和意图识别模块);项目概况,包含项目描述、数据描述和项目框架;核心技术,包含FastText、倒排表和Bert;项目实施,包含文本预处理、基于FastText的意图分类、召回Retieval和排序;项目总结。智能客服系统分为检索式和生成式,检索式需要依赖于相似度计算和排序、倒排表和意图识别模块,给出问题后,找到与其最相似的问题对应的答案,与生成式相比,实现较简单。...

2022-06-06 09:09:53 158 3

原创 小白总结Transformer模型要点

本文总结了Transformer模型的要点:模型架构,包括背景知识、整体架构、Embedding和位置编码、多头注意力机制、残差连接、LayerNorm和Decoder;疑问汇总,包含常见的Attention计算方法、为什么可以用正弦曲线表示位置编码、序列转导模型概念、原文3个评价指标;模型实现,包含实现思路和实现过程;延伸学习,包含残差连接、KL散度和contiguous。Transformer是Seq2Seq模型中一个跨时代的模型,使用自注意力代替了LSTM,实现了效果和效率的提升,地位十分重要。...

2022-06-04 11:01:45 348 1

原创 轻松入门自然语言处理系列 专题5 代码实战——用Python从零实现SkipGram

本文主要介绍了代码实战──用Python从零实现SkipGram:Word2Vec是最基本、最经典的词向量模型,主要有Skip-Gram和CBOW两种模型,从直观上理解,Skip-Gram是给定输入的单词来预测上下文,CBOW是给定上下文来预测输入的单词,为了对输出层简化、减少计算量,有2种方式,一种是建立霍夫曼树进行层次Softmax,另一种是负采样;模型实现步骤包括:1.构建词表vocab,2.初始化霍夫曼树或unigram表,3.进行前向和反向优化计算,4.保存训练好的模型参数到文件,5.输出。

2022-05-30 22:32:22 138

原创 轻松入门自然语言处理系列 专题4 词向量的使用及评估

本文主要介绍了词向量的使用及评估:GloVe是斯坦福大学NLP组提出的预训练模型,使用简单方便,被经常用于NLP任务的初始化Embedding,使用时可以选择开源提供的词向量文件,gensim库提供了很多词向量的API;词向量可视化需要先构建词组,同时因为词向量的维度一般很高、不能直接可视化,因此需要先降维,将高维向量降维到低维空间中,常见的降维方式包括PCA和TSNE两种;除了传统的词向量模型,也有预训练好的词向量模型,常用的有Transformers库,可以直接使用,也可以根据下游的任务进行微调。

2022-05-28 16:42:29 100

原创 轻松入门自然语言处理系列 09 词向量技术

本文主要介绍了词向量技术:词向量基础,包含单词的表示、从独热编码到分布式表示和词向量的训练;SkipGram模型详解,包含训练词向量的思路、SkipGram的目标函数和SkipGram的负采样;其他词向量技术,包含矩阵分解法、GloVe向量、高斯词嵌入(Gaussian Embedding)和词向量总结;论文解读,基于SkipGram的Airbnb房屋推荐《Real-time Personalization using Embeddings for Search Ranking at Airbnb》。

2022-05-22 21:41:11 155

原创 轻松入门自然语言处理系列 项目1 使用豆瓣评论进行情感预测

本文主要介绍了基于豆瓣评论的情感预测,对给定的电影评论判断情感为积极还是消极:项目概况,包含项目描述、数据描述和项目框架;核心技术,包含中文分词、TF-IDF、Word2vec、BERT Embedding和句子向量;项目实施,包含读取数据并进行数据预处理、文本处理、划分数据集、文本的向量化、模型训练和评估和实验结果;项目总结,包含数据标签分布情况、句子向量处理、模型融合。本文基于词向量来判断句子的情感,整个项目过程,从数据预处理、模型建立和训练预测都部分的质量都关系到项目的熬过,因此每一步都要做好。...

2022-05-18 09:28:26 133 2

原创 轻松入门自然语言处理系列 07 文本表示

本文主要介绍了文本表示:文本表示基础,包含单词的表示(独热编码和词向量)、句子的表示(Boolean Vector、Count Vector)和tf-idf向量(文档中单词的频率与逆文本频率);文本相似度,包括欧氏距离(距离越大相似度越小、距离越小相似度越大)、余弦相似度(既衡量了向量的大小,又衡量了向量的方向);词向量基础,包含单词之间的相似度(独热编码存在稀疏性,不能计算相似度)、词向量基础(一种分布式的表示方式,用来表示单词的含义,其质量取决于词向量训练模型)和句子向量(可以对单词向量取平均)。...

2022-05-06 22:14:11 291

原创 轻松入门自然语言处理系列 专题3 中文文本处理

本文主要介绍了中文文本处理:中文文本处理流程,包含文本数据准备、数据清洗(1.正则表达式,2.全角与半角的转化,3.处理表情字符,4.繁体中文与简体中文的转换,5.大小写数字和大小写字母的统一,除去数据中的非文本部分,包含HTML标签、emoji的处理、正则表达式的使用等)、文本分词、文本分析(词频统计、TF-IDF等);中文文本预处理案例,包含文本数据准备、数据清洗(1.全角与半角转化,2.大小写转化,3.去除表情字符,4.正则表达式,5.中文简体和繁体的转换)、文本分词和去掉停用词和文本分析举例。

2022-04-24 21:53:45 242

原创 轻松入门自然语言处理系列 06 文本处理

本文主要讲解了NLP任务中的上游任务文本处理:文本分析流程与分词,包括文本分析流程(包括原始文本、分词、清洗、标准化、特征提取和建模)、分词工具的使用(主要针对中文,包含jieba、snownlp、LTP、HanLP等)、最大匹配算法、考虑语义的一种分词方法;停用词与词的标准化,包含词的过滤和词的标准化,过滤单词有助于减小词库的大小、提高训练的效率,词的标准化有2种算法,为Stemming和Lemmazation;拼写纠错,包含拼写纠错(包含拼写错误和语法错误两类)和循环词库的问题及利用编辑距离改进。

2022-04-18 09:58:12 182 2

原创 轻松入门自然语言处理系列 专题2 Beating Kaggle the Easy Way——For Beginners

本文主要介绍了针对初学者轻松战胜Kaggle的方法:数据科学流程,包括EDA(Exploratory Data Analysis)、Data Preprocessing、Feature Engineering(包含特征选择和特征编码)、Model Selection、Ensemble Generation集成(Bagging和Boosting)等过程;泰坦尼克号案例,主要任务是根据乘客的数据(包含了性别、票类、年龄等特征)来预测用户是否幸存,包含了数据预览、数据预处理、模型训练、预测并保存结果等过程。

2022-04-10 22:31:54 175

原创 轻松入门自然语言处理系列 自然语言处理基础答疑和案例

本文主要介绍了自然语言处理基础答疑和案例:在真实的建模场景中,如何能给模型加入先验知识,包括(1)借助预训练模型,把网络的weight替换成一个在另外一个任务上pretrain好的模型weight,而不是选择随机权重作为初始权重;(2)借助输入,借助输入其实就是借助人类的先验知识;(3)借助模型设计,使用深度网络结构本身就是使用了先验知识,是把数据结构用所构造的深度网络来表达;(4)借助特征工程的思想,明确且直观地将人类的先验知识进行表达。算法设计问题,和具体业务相关,对业务的理解越深入,设计越合理。

2022-04-09 22:38:47 1045

原创 Jupyter Lab设置切换虚拟环境

在进行数据科学任务时,一般会用到交互式开发环境,即Jupyter Notebook,Jupyter lab是Jupyter Notebook的升级版,功能更强大、更好用,但是默认情况下,是不能切换虚拟环境的,只有自带的主环境,对应于conda中的base,而无法显示已经创建好的虚拟环境,此时可以按照以下步骤配置:(1)创建虚拟环境;(2)激活进入虚拟环境;(3)将虚拟环境写入Jupyter的kernel中;(4)在Jupyter Lab中确认,刷新Jupyter Lab的页面,即可查看和切换虚拟环境。

2022-04-06 13:00:40 1479

原创 轻松入门自然语言处理系列 05 机器学习基础

本文主要介绍了机器学习基础:理解朴素贝叶斯,包括初试朴素贝叶斯等;朴素贝叶斯的训练,包括计算单词的概率等;朴素贝叶斯的优化,包括朴素贝叶斯的最大似然估计、带限制的优化等;认识和理解决策树,包括决策树的应用、决策树的形态与决策边界等;决策树中的不确定性,包括好的特征、信息熵不确定性等;决策树的过拟合,包括决策树表现与节点数目之间的关系等;集成模型随机森林,包括集成模型概念等;随机森林与方差分析,包括方差和稳定性、方差和稳定性举例等;随机森林的训练,包括核心思想和构造等;随机森林的过拟合,包括参数和案例。

2022-04-01 21:44:43 1374

原创 轻松入门自然语言处理系列 04 模型的泛化

本文主要介绍了模型的泛化:什么是过拟合,包括逻辑回归参数、数据线性可分的情况、控制参数的大小和过拟合概念;如何防止过拟合,包括模型的泛化能力、模型的过拟合、模型复杂度与过拟合和正则的作用;L1与L2正则,包括常见的2种正则、L1和L2正则的本质、L1的不足之处和交叉验证;正则与先验的关系,包括最大后验估计、先验与正则之间的关系和最大后验趋近于最大似然;案例之LR中的调参,包括常见模型的超参数、GridSearchCV的使用和逻辑模型调参。过拟合是机器学习中一个常见的现象,需要防止以提升模型的泛化能力。

2022-03-30 09:54:08 248

原创 轻松入门自然语言处理系列 专题1 AI工程师面试必备考题之关于逻辑回归的一切

本文主要介绍了AI工程师面试必备考题之关于逻辑回归的一切:逻辑回归总结,包括逻辑回归的概念、作用、假设;面试题,包括LR主要解决什么问题、目的是什么,LR推导,LR的求解方法,多分类问题如何解决,线性回归与逻辑回归的区别,特征的选择,如何解决过拟合现象,什么是特征的离散化和特征交叉、逻辑回归对特征进行离散化的原因,逻辑回归的特征系数的绝对值是否可以认为是特征的重要性,数据归一化对逻辑回归起到的作用,逻辑模型的优缺点,逻辑回归与MLP的关系。LR是最基本、最重要的分类模型之一,经常被用作分类任务的基准。

2022-03-29 20:06:51 989

原创 轻松入门自然语言处理系列 03 机器学习基础-逻辑回归

本文主要介绍了机器学习的基础模型逻辑回归模型:逻辑回归中的条件概率,包括逻辑回归的应用、理解基准、分类问题、逻辑函数和样本条件概率;逻辑回归的目标函数,包括最大似然估计、逻辑回归的似然函数和逻辑回归的最大似然估计;梯度下降法,包括求解函数的最小值最大值、梯度下降、逻辑函数求导和逻辑回归的梯度下降法;随机梯度下降法,包括梯度下降法的缺点、随机梯度下降法、小批量梯度下降法、基于小批量梯度下降法实现逻辑回归;案例-预测银行客户是否会开设定期存款账户,包括问题描述、数据理解、数据预处理、模型训练、模型评估等。

2022-03-19 21:44:30 1747 2

原创 轻松入门自然语言处理系列 02 数据结构与算法基础

本文主要介绍了数据结构与算法的基础:数据结构与算法的重要性,包括复杂度分析和递归函数的复杂度,算法的复杂度分为时间复杂度和空间复杂度,分别从时间和内存空间上来衡量算法,每一个小的细节都会决定整个程序的效率;动态规划算法,包括动态规划与自然语言处理、最大递增子串和换硬币问题,NLP中经常用到动态规划的思想,例如编辑距离、维特比算法等;DTW算法和应用,包括DTW(Dynamic Time Warping)算法介绍、DTW的应用场景和DTW算法实现,DTW算法可以用来计算两个长度不相等的时间序列的相似度。

2022-03-15 09:29:25 197

原创 轻松入门自然语言处理系列 01 自然语言处理概述

本文主要介绍了自然语言处理概述:专栏初衷和NLP前景,包括专栏的初衷、NLP岗位待遇和如何学习NLP;自然语言处理的概念,包括什么是自然语言处理、为什么自然语言处理难和一个简单机器翻译案例;自然语言处理的应用,包括智能问答系统、文本生成、机器翻译、情感分析、聊天机器人、虚假新闻检测、文本主题分类和信息抽取;自然语言处理核心技术,包括自然语言处理技术的三个维度、自然语言处理关键技术(分词、词性分析、语义理解、命名实体识别、依存文法分析、句法分析)和自然语言处理技术概览。自然语言处理是一个不错的选择方向。

2022-03-09 14:31:04 260

原创 轻松入门自然语言处理系列 00 专栏介绍

近年来,人工智能被越来越多地应用到各个领域、极大地改善了人们的生活,自然语言处理是AI中最新得到很快发展的一个方向,具有很大的行业优势和前景,越早进入这个行业,优势越大。NLP主要包括分词、词性分析、语义理解、命名实体识别、依存文法分析和句法分析等核心技术,被广泛应用到智能问答系统、文本生成、机器翻译、情感分析和文本主题分类等场景中。同时可以肯定,在未来的一段时间内,NLP依然会保持这样的增长态势,因此掌握NLP技术显得更加重要和有吸引力。因此开设了自然语言处理入门系列专栏,让小白也能轻松入门NLP。

2022-03-09 14:20:32 1237 2

原创 算法与数据结构全阶班-左程云版(二)基础阶段之4.堆和比较器

本文主要介绍了堆和比较器:堆结构就是用数组实现的完全二叉树结构,每棵子树的最大值都在顶部是大根堆,每棵子树的最小值都在顶部是小根堆,有heapInsert与heapify操作,时间复杂度分别为O(N*logN)和O(N),堆排序实现了O(N*LogN)的时间复杂度,同时空间复杂度O(1),优先队列的底层就是堆;比较器的实质是重载比较运算符,可以很好的应用在特殊标准的排序上,也可以应用在特殊标准排序的结构上,手写堆结构,因为增加了对象的位置表,所以能够满足动态改信息的需求,可以自己实现堆和对应的比较器。

2022-02-23 15:29:34 252

原创 算法与数据结构全阶班-左程云版(二)基础阶段之3.归并排序和快速排序

本文介绍了2种排序方式:归并排序,思路是整体为递归,左边排好序+右边排好序+ merge让整体有序,也可以用非递归实现,时间复杂度为O(N*logN),额外空间复杂度为O(N),相比于冒泡排序、选择排序和插入排序O(N2)的时间复杂度,归并排序的时间复杂度优化了很多,这是因为减少了比较次数,有很多应用,例如求小和、逆序对等,只要数组中左边的数比右边的数满足某个条件即可进行操作;快速排序有3种方式,普通分区算法,荷兰国旗算法,随机选数与最后一个数交换,再利用荷兰国旗算法,时间复杂度为O(N*logN)。

2022-02-21 21:59:05 599 1

原创 机器学习常见异常和解决办法汇总

Python有很多机器学习库,在使用的过程中可能会出现各种异常,下面汇总了一些常见的一场和解决办法:sklearn库的LogisticRegression模型训练时警告lbfgs failed to converge (status=1)。sklearn库的LogisticRegression模型使用L1正则报错,需要设置分类器为liblinear。持续更新中...

2022-02-21 20:10:08 907

原创 算法与数据结构全阶班-左程云版(二)基础阶段之2.链表、栈、队列、递归行为、哈希表和有序表

本文主要介绍了常用的数据结构:链表分为单链表和双向链表,可以实现反转单链表和双链表和删除给定值;栈数据先进后出,队列数据先进先出,队列和栈既可以使用双端队列实现,也可以使用数组实现,数组实现栈较简单,实现队列需要使用循环数组,可以实现返回栈中最小元素的栈,并且为常数时间复杂度,还可以用两个队列实现栈,或者用两个栈实现队列;递归的思想是将一个大的任务分解成小的任务,最后经过整合得到整个问题的解,可以使用Master公式计算出递归的时间复杂度;哈希表时间复杂度为O(1),有序表时间复杂度为O(logN)。

2022-02-18 21:28:56 382

原创 算法与数据结构全阶班-左程云版(二)基础阶段之1.复杂度、对数器、二分法和异或运算

本文主要介绍了复杂度、对数器、二分法和异或运算:评价算法优劣的核心指标包括时间复杂度(流程决定)、额外空间复杂度(流程决定)和常数项时间(实现细节决定);确定算法流程的时间复杂度时,当完成了表达式的建立,只需要保留最高阶项,复杂度是衡量算法流程的复杂程度的一种指标;对数器是检验算法实现正确性的有力工具,可以覆盖几乎所有情况的测试用例,无死角实现对算法的验证;只要构建出能够排除另外一端的逻辑,就可以使用二分,而不一定需要保证数组有序;异或运算可以简记成无进位相加,可以在算法中实现特定功能、加快运算效率。

2022-02-18 11:55:57 456

原创 算法与数据结构全阶班-左程云版系列目录

左程云俗称左神,是一个刷题7年的算法爱好者,也是马士兵教育的算法授课老师。2014年起专职做程序员算法和数据结构培训、代码面试培训、刷题交流等相关工作,是《程序员代码面试指南–IT名企算法与数据结构题目最优解》的作者。《算法与数据结构全阶班》包括5个系列,分别是算法和数据结构新手班、算法与数据结构基础班、算法数据结构体系学习班、算法与数据结构进阶班和大厂算法和数据结构刷题班,本系列汇总了全阶班的全部题目和解答,同时还穿插了算法与数据结构的笔试和面试技巧,用最通俗易懂的语言争取让每个人都能轻松学懂算法。

2022-02-17 21:52:39 1096 3

原创 Windows11右键菜单太烦人,简单几步即可恢复旧版完整菜单

Windows 11已经推出一段时间了,相比Windows 10,界面确实美观了不少,同时也有很多新的设计。但是并不是每个人都能很快适应这种新设计。被广泛吐槽的一点就是右键菜单的改变,增加了显示更多选项 ,原来的很多右键选项被隐藏起来了,原本经常要用到的很多功能就需要点击显示更多选项才能展开,显然就很麻烦。选择使用修改注册表的方式来还原为原来的右键菜单:先打开注册表;(并找到注册表CLSID路径;右键点击CLSID项,新建一个项,在新建的项上再新建一个项,再双击回车新建项的默认条目,保存重启即可生效。

2022-02-08 18:31:50 16302

原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之6.Impala交互式查询

Impala的核心开发语言是SQL语句,Impala有shell命令行窗口、JDBC等方式来接收SQL语句执行,对于复杂类型分析可以使用C++或者Java来编写UDF函数。Impala的SQL语法高度集成了Apache Hive的HQL语法,Impala支持Hive支持的数据类型以及部分Hive的内置函数。包括3部分:Impala-Shell,分为外部命令和内部命令;Impala SQL语法,与关系型数据库的SQL语法类似;导入数据以及JDBC方式查询Impala,有多种数据导入方式,也支持接口编程。

2021-11-28 17:33:40 1206

原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之5.即席查询Impala介绍及入门使用

本文主要介绍了即席查询工具Impala及入门使用:Impala概述,包括Impala的概念和优势、Impala的缺点及适用场景;Impala的安装与入门,包括准备工作、制作本地yum源、安装Impala、Impala启动和完善和入门案例;Impala架构原理,包括Impala组件和Impala单机执行计划和分布式执行计划。Impala是Cloudera提供的一款开源的针对HDFS和HBASE中的PB级别数据进行交互式实时查询,参考了Google的Dremel,基于大规模并行处理实现,最大的特点是快速。

2021-11-21 21:06:24 1331 1

原创 PyTorch使用常见异常和解决办法汇总

PyTorch是一个经常用到的机器学习框架,在使用时可能会出现一些异常,这里总结一些常用的异常和解决办法:使用conda安装PyTorch后同时在Jupyter导入失败No module named ‘torch’,需要安装nb_conda_kernels;使用张量时报错expected scalar type Double but found Float,需要将数据类型转为float32;创建Embedding时报错IndexError: index out of range of self。

2021-11-21 17:23:14 1438

原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

本文主要介绍了Hive的DDL、DQL和数据操作:HQL操作之DDL命令,包括数据库操作、建表语法、内部表及外部表、分区表、分桶表、修改表和删除表;HQL操作之数据操作,包括load装载数据和insert插入数据;HQL操作之DQL命令,包括简单查询、简单子句、group by分组子句、表连接、order by排序子句、sort by排序、distribute by和cluster by排序。Hive的DDL、DQL、导入数据等方面与关系型数据库存在一定的相似性,因此入手相对容易,但是也存在很多不同。

2021-11-14 20:38:07 2231

原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之3.数据仓库工具Hive基础

本文主要介绍了数据仓库工具Hive基础,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,是将SQL查询语句转化为MR任务进行计算:Hive概述,包括数仓工具Hive的产生背景、数仓工具Hive与RDBMS对比、数仓工具Hive的优缺点和数仓工具Hive的架构原理;Hive安装与配置,包括安装准备、安装MySQL元数据库、Hive的安装与配置、Hive安装的注意事项和参数配置;数据类型与文件格式,包括基本数据类型及转换、集合数据类型和Hive文本文件数据编码及读时模式。

2021-11-07 11:32:54 8355

原创 大数据开发基础入门与项目实战(二)Java Web数据可视化之4.Linux基本操作命令和功能

本文主要介绍了Linux基本操作命令和功能:常用Linux命令的基本使用,包括Linux常用快捷键、命令格式及帮助手册使用、切换目录、展示目录、创建和删除目录、创建和删除文件、复制与剪切、cat查看文件、more和less命令查看文件、重定向输出符号、管道符即逻辑控制符&&和history查看历史;打包和压缩,包括打tar包和解tar包、压缩与解压缩;时间日期;搜索查找,包括find查找和grep过滤查找;vi编辑器,包括vi编辑器的使用和vi编辑器复制和剪切。掌握操作命令是熟悉使用Linux的基础。

2021-09-08 21:39:10 411 3

原创 大数据开发基础入门与项目实战(二)Java Web数据可视化之3.Linux概述、安装和结构

本文主要介绍了Linux概述、安装和结构:Linux概述,包括Linux简介和Linux的应用领域及版本介绍;安装Linux,包括VMWare的安装、使用VMWare构建虚拟机器、安装CentOS操作系统、配置静态IP、给虚拟机设置快照和客户端连接工具的介绍和使用;Linux结构,包括Linux组成和Linux目录结构。Linux is not Unix,Linux是一套免费使用和自由传播的类Unix操作系统,有很多发行版,包括Ubuntu、RedHat和CentOS,有着开源的特点和强大完善的功能。

2021-09-07 22:13:29 276 2

原创 Hadoop开发常见异常及解决办法总结

Hadoop开发过程中会遇到一些异常,总结常见的异常及解决办法如下:winutils.exe error;停止Yarn提示no rm to stop;编译源码报错没有 @return;Hive自定义UDF报错Failure to find org.pentaho;元数据配置内嵌模式报错;编译Hue cannot find -lcrypto;mysql_config not found;启动Impala时报错Unit not found;安装Impala后启动HDFS报错IOException。持续更新...

2021-09-06 13:10:56 695

原创 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之2.HDFS分布式文件系统

本文主要介绍了HDFS分布式文件系统:HDFS特点;命令行和API操作HDFS,包括Shell命令行客户端、API客户端连接HDFS的两种方式、API客户端上传下载文件、API客户端文件详情及文件类型判断、API客户端IO流操作和API客户端IO流seek读取;HDFS读写机制解析;HDFS元数据管理机制,包括Namenode、Fsimage及Edits编辑日志、2NN及CheckPoint等;Hadoop限额、归档及集群安全模式;日志采集案例,包括需求分析、调度功能实现、采集上传功能实现和程序调优。

2021-09-04 21:49:36 311 4

jquery-3.5.1.zip

jQuery是一个快速、简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScript代码库(或JavaScript框架).它封装JavaScript常用的功能代码,提供一种简便的JavaScript设计模式,优化HTML文档操作、事件处理、动画设计和Ajax交互。本资源提供的是3.5.1的压缩版和完整版。

2020-08-20

Sublime Text 3.7z

Sublime Text被称作Windows下的TextMate,Sublime Text的特点如下:拥有高效、没有干扰的界面,在编辑方面的多选、宏、代码片段等功能,以及很有特色的Minimap。Sublime Text是一个代码编辑器(Sublime Text是收费软件,但目前可以无限期试用)也是HTML和散文先进的文本编辑器。

2020-08-09

支付宝开放平台开发助手-1.0.7.zip

支付宝开放平台开发助手是支付宝开放平台推出的一键生成RSA密钥工具,该工具也提供了签名及验签功能,可以演示针对支付宝开放平台接口的签名和验签流程。

2020-08-02

Jingdong_Comment-MultiThreading.py

该代码不需要selenium,直接使用requests大规模爬取指定商品的评论,并保存到csv中,效率高,同时使用多线程进一步提高效率。

2020-04-12

Jingdong_Comment-MultiThreading.py

该代码不需要selenium,直接使用requests大规模爬取指定商品的评论,并保存到csv中,效率高,同时使用多线程进一步提高效率。

2020-04-12

Jingdong_Comment.py

该代码不需要selenium,直接使用requests大规模爬取指定商品的评论,并保存到csv中,效率高。

2020-04-12

Postman - 7.21.2.rar

Postman不仅可以调试简单的css、html、脚本等简单的网页基本信息,它还可以发送几乎所有类型的HTTP请求,在发送网络HTTP请求方面是很不错的工具。

2020-04-10

nvm-1.1.7.rar

nvm是node版本管理工具,是让你在同一台机器上安装和切换不同版本的node的工具,可以解决node各种版本之间存在的不兼容现象。

2020-04-06

前端开发框架vue.js

Vue是一套用于构建用户界面的渐进式JavaScript框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,方便与第三方库或既有项目整合。

2020-04-02

Git-2.25.0-64.rar

Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理,是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

2020-03-27

Redis - 3.0.504.zip

Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。

2020-03-21

163-Card.py

一个简单的小项目,首先selenium动态模拟加载页面获取所有图片链接,再交给requests库下载,最后有百度aip实现文字识别最终实现了阴阳师百闻牌所有卡牌的下载。

2020-03-20

upload-labs.rar

Upload-labs是一个总结了所有类型的上传漏洞的靶场,包括常见的文件上传漏洞,可以进行多种类型漏洞的文件上传测试。

2020-03-19

pconline.rar

pconline是ROCBOSS进行XSS存储型测试的工具,是一个微型的社区,可以进行发帖、私信等社区的简单操作,可以在其中寻找XSS漏洞进行探测。

2020-03-19

IE Tester 0.4.7.rar

IETester是一个免费的(个人和专业用途的)WebBrowser,可以在Windows 8台式机,Windows 7,Vista和XP上使用IE11,IE10,IE9,IE8,IE7,IE 6和IE5.5的呈现和JavaScript引擎,以及在同一过程中安装的IE。

2020-03-17

ffmpeg-20190921

FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。FFmpeg在Linux平台下开发,但它同样也可以在其它操作系统环境中编译运行,包括Windows、Mac OS X等。

2020-03-08

pikachu.rar

用于搭建本地测试环境,是一个比较详细的漏洞平台,可用于搭建靶场、进行SQL注入测试,运用于Web安全攻防。

2020-03-05

FireFox_HackBar_Old.rar

Hackbar是一个Google和Firefox的插件,它的功能类似于地址栏,但是它里面的数据不受服务器的相应触发的重定向等其它变化的影响,可以帮助你在测试SQL注入,XSS漏洞和网站的安全性,主要是帮助开发人员做代码的安全审计,检查代码,寻找安全漏洞,这里提供Firefox的免费旧版本,用于开发。

2020-03-03

Chrome_HackBar_EN.rar

Hackbar是一个Google和Firefox的插件,它的功能类似于地址栏,但是它里面的数据不受服务器的相应触发的重定向等其它变化的影响,可以帮助你在测试SQL注入,XSS漏洞和网站的安全性,主要是帮助开发人员做代码的安全审计,检查代码,寻找安全漏洞,这里提供Google英文原版,用于开发。

2020-03-03

Renminwang-Message-Crawler-3.rar

这是配合https://blog.csdn.net/CUFEECR/article/details/104573023的代码和数据,可以用于进行测试和交流学习,不得滥用,违者请自负责任。

2020-02-29

解决Windows11 visual c++ build tools安装包丢失或损坏

在Windows 11上安装Python第三方库可能会报错Microsoft Visual C++ 14.0 or greater is required直接安装visual cpp build tools full.exe可能会提示安装包丢失或损坏,需要安装自带安装包的visual cpp build tools full.exe。直接下载按照使用说明安装即可。

2022-03-15

贪心学院第10期NLP魔鬼训练营使用随机森林预测员工离职率案例代码和数据

贪心学院自然语言处理高级魔鬼训练营全面剖析自然语言处理领域前沿技术,包括预训练、对话系统、文本生成、知识图谱、信息抽取等。本资源是《第05章 机器学习基础》的10.随机森林的过拟合案例《案例:员工离职率预测》的数据和参考代码,使用了随机森林模型。

2022-02-27

贪心 NLP训练营使用朴素贝叶斯 进行垃圾邮件分类案例 代码和数据

贪心学院自然语言处理高级魔鬼训练营全面剖析自然语言处理领域前沿技术,包括预训练、对话系统、文本生成、知识图谱、信息抽取等。本资源是《第05章 机器学习基础》的1.理解朴素贝叶斯案例《朴素贝叶斯的应用:垃圾邮件分类》的数据和参考代码,使用了朴素贝叶斯模型。

2022-02-26

贪心学院第10期NLP魔鬼训练营使用逻辑回归预测银行客户是否会开设定期存款账户案例代码和数据

贪心学院自然语言处理高级魔鬼训练营全面剖析自然语言处理领域前沿技术,包括预训练、对话系统、文本生成、知识图谱、信息抽取等。本资源是《第03章 机器学习基础 - 逻辑回归》的5.案例《预测银行客户是否会开设定期存款账户》的数据和参考代码,使用了逻辑回归模型。

2022-02-21

C++个人书籍管理系统 C++编程-多文件实现(完整版)

C++完成个人书籍管理系统的设计与开发,功能包括录入书籍信息、保存书籍信息、浏览书籍信息、查询书籍信息、增加书籍信息、删除书籍信息、修改书籍信息、按类别统计书籍的数量、按书名对书籍进行排序、退出,同时使用了枚举、结构体、结构体数组、结构体指针访问数组等结构,并实现将所有数据保存在文件中。更详细的文档要求可查看链接https://wwi.lanzouo.com/ijVMCy2q0li,有问题也可以私聊我。

2021-12-28

大数据Hive测试数据uaction.rar

大数据Hive测试数据uaction.rar,包含了用户操作记录,为文件大小为300余M,包含800W条数据。

2021-09-30

Community_Dating-社区交友APP后端API代码

资源为uni-app社区交友APP开发实战专栏(https://blog.csdn.net/cufeecr/category_10748973.html)后端接口代码,配套专栏使用,方便各位读者,整理不易,一顿早饭钱。

2021-03-07

Community_Dating-社区交友APP前端uniapp代码和素材

资源为uni-app社区交友APP开发实战专栏(https://blog.csdn.net/cufeecr/category_10748973.html)前端uni-app代码和素材,配套专栏使用,方便各位读者,整理不易,一顿早饭钱。

2021-02-16

Navicat for MySQL.zip

强大的数据库管理和设计工具,支持 Win、macOS 和 linux。直观的 GUI 让用户简单地管理 MySQL、MariaDB、MongoDB、SQL Server、SQLite、Oracle 和 PostgreSQL 的数据。

2021-02-07

xadmin Django3

xadmin是一个不应该错过的Django管理员替代品,要使用Xadmin,需要安装Django ,并且必须激活管理站点,本版本支持Django3.

2020-07-21

xadmin Python3

xadmin是一个不应该错过的Django管理员替代品,要使用Xadmin,需要安装Django 1.4,并且必须激活管理站点,本版本支持Python3.

2020-07-20

DjangoUeditor

在做Django后台管理的时候,需要用到富文本编辑器,在python3环境下,Django应用中集成百度Ueditor HTML编辑器,这是支持Python3的DjangoUeditor包。

2020-07-20

python 3.8

Python 3.8.0是Python编程语言的最新主要版本,它包含许多新功能和优化,在Python3.7的基础上增加了很多新功能和语法。

2020-07-18

o15-ctrremove Office卸载工具.zip

Office卸载工具是微软官方出品的Office清除工具,支持Office2003卸载、Office2007卸载、Office2010等多个版本的卸载。

2020-07-13

百度 UEditor

UEditor是由百度web前端研发部开发所见即所得富文本web编辑器,具有轻量,可定制,注重用户体验等特点,开源基于MIT协议,允许自由使用和修改代码。

2020-07-03

jquery.min.js v1.11.1

jQuery是一个快速、简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScript代码库(或JavaScript框架)。jQuery设计的宗旨是“write Less,Do More”,即倡导写更少的代码,做更多的事情。它封装JavaScript常用的功能代码,提供一种简便的JavaScript设计模式,优化HTML文档操作、事件处理、动画设计和Ajax交互。版本为1.11.1。

2020-07-02

Editor.md package.zip

Editor.md是一款开源的、可嵌入的 Markdown 在线编辑器(组件),基于 CodeMirror、jQuery 和 Marked 构建。它是功能非常丰富的编辑器,左端编辑、右端预览,非常方便,完全免费。

2020-06-29

SQLYog.zip

SQLyog是一个快速而简洁的图形化管理MYSQL数据库的工具,它能够在任何地点有效地管理你的数据库,由业界著名的Webyog公司出品,使用SQLyog可以快速直观地让您从世界的任何角落通过网络来维护远端的MySQL数据库。

2020-04-19

phpstudy_pro.zip

phpStudy是一个PHP调试环境的程序集成包。该程序包集成最新的Apache+PHP+MySQL+phpMyAdmin+ZendOptimizer,一次性安装,无须配置即可使用,是非常方便、好用的PHP调试环境。该程序不仅包括PHP调试环境,还包括了开发工具、开发手册等。

2020-04-19

豆瓣案例static材料.zip

在进行豆瓣案例开发时,需要用到一些css文件和图片文件,可以直接下载使用,方便快捷,完成美观的网页效果。

2020-04-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除