自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

knightzz

那些遗憾,或早或晚 会以特别的方式在你心中抚平 愿我们的遗憾,都在另一个时空得到和解

  • 博客(170)
  • 资源 (3)
  • 收藏
  • 关注

原创 Spark学习笔记(5) - Spark连接HBase进行交互 - Get / Put 数据

Spark直接连接HBase进行 Put / get 等操作

2019-12-01 17:04:11 493 1

原创 Spark学习笔记(4) - 关于Spark常用31个transform算子代码总结以及使用方法介绍(带目录)

文章目录一.Transform类型算子1.1 Value 类型1.1.1 map 算子1.1.2 mapParatition 算子1.1.3 mapPartitionsWithIndex 算子1.1.4 flatMap 算子1.1.5 map 和 mapParatition的区别1.1.6 glom 算子1.1.7 groupBy 算子1.1.8 filter 算子1.1.9 sample 算...

2019-11-17 18:43:31 237 1

原创 CS 学习笔记 - 关于页式虚拟存储器的地址映射的一些理解

虚拟存储器映射图解图解详细解释 ????页式虚拟存储系统 ☁️页式虚拟存储系统中 虚拟地址空间会被划分为 等长大小的页,这个页被称为 逻辑页,我的理解就是 假设它存在, 假设我们有这么一块虚拟的空间, 这些空间被划分成一个个大小相同的页,关于这个页, 就只是一个划分的单位, 比如 我们可以说把一个 1G 的 虚拟存储空间划分为 4页, 那么每一页就是 256M , 我一开始很纠结这个页 ...

2019-11-04 22:54:12 897 3

原创 Java学习笔记 - 关于线程虚假唤醒的一些个人理解

什么是虚假唤醒这里我举一个 生产者消费者的例子 Clerk 的 出售 方法的一段代码注意红框的代码, 当货物不足的时候, 消费线程会挂起注意到 : 最开始 BD 线程挂起, 他们都停留在 红框处没有向下执行, 此时生产者开始 生产 商品但是请注意 在生产完一个商品之后, 它又把 已经挂起的BD线程唤醒了, 但是此时 只生产了一个商品, 并不需要唤醒两个线程 ! 所以多出的一个...

2019-10-30 16:16:17 396

原创 HBase踩坑笔记 - 使用 MR 集成Hbase 报错 IllegalArgumentException: No columns to insert ⭐️⭐️⭐️⭐️

错误描述今天在 使用 MapReduce 将 Person 表中的 name 字段 的数据 写入到 Person_mr 表中 报错代码 如下 :Mapperpackage com.wangt.habse.mr01;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import or...

2019-08-04 16:17:04 380

原创 HBase 学习笔记 - HBase1.3.1 常用API总结 ⭐️⭐️⭐️

HBase常用API总结❤️ 使用的HBase版本为 1.311. pom.xml文件: <!-- 配置 Hbase 的依赖 --> <dependencies> <dependency> <groupId>org.apache.hbase</groupId> ...

2019-08-02 21:16:55 256

原创 HBase学习笔记 - CDH下HBase和MR的集成 ⭐️⭐️⭐️

CDH 下 HBase和MR的集成1.配置环境变量❤️ 注意 每台机器都要配置vim /etc/profile追加到profile文件尾部 :export HBASE_HOME=/opt/cloudera/parcels/CDH-5.14.4-1.cdh5.14.4.p0.3/lib/hbaseexport HADOOP_HOME=/opt/cloudera/parcels/CD...

2019-08-02 20:56:10 128

原创 【GitHub】- 解决国内 github访问慢的问题 ⭐️⭐️

中国地区访问 GitHub 为什么很慢?为什么访问速度会很慢?GitHub 的CDN域名遭到DNS污染。GitHub 在中国大陆访问速度慢的问题原因有很多,但最直接和最主要的原因是 GitHub 的分发加速网络的域名遭到 DNS 污染。由于 GitHub 的加速分发 CDN 域名 assets-cdn.github.com 遭到 DNS 污染,导致无法连接使用 GitHub 的加速分发服务...

2019-07-10 17:45:06 950 2

原创 【Jupyter】JupterNoteBook使用技巧-安装插件 更换主题 设置字体

1.下载插件下载插件pip install jupyter_nbextensions_configuratorpip install jupyter_contrib_nbextensions执行如下命令启用插件jupyter nbextensions_configurator enable --userjupyter contrib nbextension install -...

2019-05-27 11:29:35 993

原创 【线性回归】-最小二乘法求一元线性回归公式推导及代码实现

1.导入依赖import numpy as npimport matplotlib.pyplot as plt2.画出线性图x = [2.8 ,2.9, 3.2 ,3.2, 3.4, 3.2, 3.3, 3.7, 3.9, 4.2]y = [25.3, 27.6, 29.4, 32.3, 34.1, 36.2, 35.3, 39.1, 42, 45]plt....

2019-05-21 21:11:32 11230 1

原创 【分类】- 基于朴素贝叶斯的垃圾邮件预测系统

简单介绍:这里我举例来简单的说明下贝叶斯算法 :如上图 : 假设一个班有 100 人 , 其中80%的是玩王者荣耀的 , 20%玩吃鸡 ,那么在所有人中玩LOL的占 10%其中 同时玩 王者 和 LOL 的人 有 8个人 ,占所有玩 王者的人中 的 8 / 80 ,同样的 同时玩 吃鸡和 LOL的占所有玩吃鸡人数的2 / 20 根据这个概率表 , 我们可以计算出 当我们只...

2019-03-15 13:24:17 783

原创 【Hadoop】- Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景

Gzip 优点压缩解压速度快 , 压缩率高 , hadoop本身支持 处理压缩文件时方便 , 和处理文本一样 大部分linux 系统自带 Gzip 命令 , 使用方便缺点不支持切片使用场景文件压缩后在130M以内 (一个块大小) , 都可以使用 GZip 压缩(因为Gzip唯一的缺点是不能切片) 总结 : 不需要切片的情况下 可以使用 BZip2 优点压...

2019-02-22 21:38:38 4332 4

原创 【问题解决】Hadoop 常见问题汇总

Hadoop常见问题任何配置文件的修改尽量先关闭集群 centos无网络重启network.service显示以下情况原因 :NetworkManager是fedora上的一个网络地址服务,它会自动地检测目前网络上的设置,并自动修改设置文件的内容,如无线网络的检测等。但当它无法识别时,就会产生无法联机的状况,因此建议将NetworkManager停用...

2019-01-10 17:22:59 201

原创 《Leetcode刷题指南》- 680. 验证回文字符串 Ⅱ【双指针法】

文章目录题目描述解题代码思路分析题目描述680. 验证回文字符串 Ⅱ给定一个非空字符串 s,最多删除一个字符。判断是否能成为回文字符串。可以选择删除一个也可以选择不删除, 但是都要求确保是否为回文串字符串是非空并且是小写的字符串解题代码package cn.knightzz.string;/** * @author 王天赐 * @title: ValidPalindromeII * @projectName leetcode-could * @description:

2021-11-05 12:22:15 11

原创 《自然语言处理指南》- 卷积神经网络在文本分类上的应用(更新中)

文章目录TextCNN模型结构卷积操作在文本上的应用数据源定义数据embedding卷积层操作池化层操作全连接层完整代码TextCNN模型结构卷积操作在文本上的应用数据源定义数据为 128 * 30 的文本转索引的数据 即 128行, 单个句子为30个词的文本即 batch_size = 128 和 max_seq_len = 30数据embeddingnum_embeddings : 文本中所有不重复单词的个数embedding层会生成 num_embeddings * em

2021-11-02 20:09:43 471

原创 IDEA + Maven 搭建JavaWeb项目

菜单目录前言1. 项目搭建2. 设置Tomact3. 配置Artifact4. 项目运行5. 注意事项前言1. 项目搭建选择maven模板的 maven-app 模板创建项目 , 如下图所示设置maven相关配置确认自己的maven配置目录, 如果没有设置, 默认会使用.m2的maven配置2. 设置Tomact找到 run 点击Edit Config点击 + 号, 找到 Tomact 选择 Local点击创建可以添加/修改相关配置点击Deployment, 然后点击 + 号

2021-10-31 15:12:38 78 2

原创 《Pytorch学习指南》- Dataset和Dataloader用法详解

目录前言DataSetDataLoader数据构建1. 创建Dataset 类 :sparkles:2. 读取数据 :ambulance:3. 返回数据 :zap:读取数据 :art:注意细节 :rocket:对比实验前言????本章节主要介绍如何使用torch.utils.data 中的Dataset和Dataloader来构建数据集, 重点要看使用细节DataSettorch.utils.data.Dataset功能 : Dataset抽象;类, 所有自定义的Dataset都需要继

2021-10-27 21:16:03 68

原创 《Python数据处理指南》- Json数据转换为XML数据(待更新)

文章目录前言一、数据读取二、数据转换1. Pandas读取json数据2. Json数据转换为XML数据3. 保存XML数据总结前言一、数据读取二、数据转换1. Pandas读取json数据2. Json数据转换为XML数据3. 保存XML数据总结...

2021-10-27 09:56:11 23

原创 《matplotlib学习指南》- 初始matplotlib

Task1 初识matplotlib本章节知识点导入模块: import matplotlib.pyplot as plt/import numpy as np定义图像窗口:plt.figure()画图:plt.plot(x,y)定义坐标轴范围:plt.xlim()/plt.ylim()定义坐标轴名称:plt.xlabel()/plt.ylabel()定义坐标轴刻度及名称:plt.xticks()/plt.yticks()设置图像边框颜色:ax = plt.gca() / ax.spin

2021-10-16 21:28:34 22

原创 《深度学习指南》- 深度学习常用专业术语解释(更新中)

梯度参考文章梯度消失、梯度爆炸及其表现和解决方法梯度弥散梯度弥散(梯度消失): 通常神经网络所用的激活函数是sigmoid函数,sigmod函数容易引起梯度弥散。 这个函数能将负无穷到正无穷的数映射到0和1之间,并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x)) \\f′(x)=f(x)(1−f(x))表示两个0到1之间的数相乘,得到的结果就会变得很小了梯度爆炸...

2021-10-16 10:06:03 18

原创 《深度学习指南》- 激活函数的深入理解与优缺点总结(待更新)

参考文章深度学习笔记——常用的激活(激励)函数深度学习: 激活函数 (Activation Functions)常用激活函数介绍

2021-10-16 09:43:54 16

原创 《Pytorch学习指南》- 基础API(4)

1. Pytorch编程技巧1.1 Pytorch模型的使用torch.saves(state, dir)保存/序列化torch.load(dir)加载模型1.2 Pytorch并行化操作torch.get num threads():获得用于并行化CPU操作的OpenMP线程数torch.set_ num threads(int):设定用于并行化CPU操作的OpenMP线程数1.3 Tensor的相关配置torch.is_ tensor()如

2021-10-15 10:52:40 25

原创 《Spring学习指南》- SpringIOC基于XML配置的Bean

1. 创建Beanpackage cn.knightzz.xml.bean;/** * @author 王天赐 * @title: UserBean * @projectName SpringIOC * @description: * @date 2021/10/9 21:40 */public class UserBean { public void test() { System.out.println("Hello Spring!"); }}

2021-10-14 21:42:21 12

原创 《Pytorch学习指南》- 基础API(3)

文章目录1. Pytorch的统计学函数1.1 均值与最大最小值1.2 方差与众数2. Pytorch与分布函数3. Pytorch与随机抽样4. Pytorch的范数运算5. Tensor的矩阵分解6. Tensor的张量裁剪7. Tensor的索引与数据筛选7.1 torch.where7.2 torch.index_select7.3 torch.gather7.4 torch.masked_index7.5 torch.take7.6 torch.nonzero8. 张量的组合与拼接8.1 torc

2021-10-14 19:21:25 14

原创 《Pytorch学习指南》- 基础API(2)

1. inplace和广播机制in-place 操作就地操作, 不适用临时变量, 比如 a.add_(b) = a + b => 计算结果直接赋值给 a 等价于 a += b广播机制张量参数可以自动的扩展为相同的大小广播机制满足的条件每个张量至少有一个维度满足右对齐 :例如 torch.rand(2,1,1) 和 torch.rand(3) , 如果维度的最后一个维度, 比如 torch.rand(2,1,1) 最后一个是1, torch.rand(3)最后一个维度是3满

2021-10-12 15:46:47 16

原创 《Pytorch学习指南》- 基础API(1)

文章目录1. PytorchTensor Base1.1 torch.tensor1.2 torch.Tensor1.3 torch.empty1.4 torch.zeros1.5 torch.zeros_like1.6 torch.eye1.7 torch.ones1.8 torch.ones_like1.9 torch.rand1.10 torch.arange1.11 torch.linspace1.12 torch.normal1.13 tensor.uniform_1.14 torch.randp

2021-10-12 08:56:47 14

原创 typora + picgo + gitee 搭建博客图床

1. 创建仓库创建私人仓库2. picgo 下载插件注意需要 nodejs 环境才能下载插件3. 插件配置repo 地址如下 注意是 地址栏的那个token 在设置里的私人令牌申请4. Typora 配置

2021-09-27 17:05:32 16

原创 《重学Tensorflow》- Tensorflow 基础数据类型

1. Tensorflow 基础数据类型基础数据类型tf.constanttf.stringtf.ragged.constant, tf.SpareTensor, tf.Variable自定义损失函数tf.reduce_mean自定义层次keras.layers.lambda继承法TF.functiontf.functiontf.autograph.to_codeget_concrete_functionGraphDefget_operations

2021-09-26 12:11:55 13

原创 自然语言处理学习路线以及资料 (持续更新)

1. Python基础技能 ????Python 基础 ????廖雪峰PythonPandas ????Pandas数据分析从入门到实战Pandas 基础命令速查表

2021-09-22 20:06:35 16

原创 《数据科学基础技能》- 初识matplotlib

Task1 初识matplotlib本章节知识点导入模块: import matplotlib.pyplot as plt/import numpy as np定义图像窗口:plt.figure()画图:plt.plot(x,y)定义坐标轴范围:plt.xlim()/plt.ylim()定义坐标轴名称:plt.xlabel()/plt.ylabel()定义坐标轴刻度及名称:plt.xticks()/plt.yticks()设置图像边框颜色:ax = plt.gca() / ax.spin

2021-09-21 14:41:37 12

原创 《自然语言处理》- Jieba分词器的使用

1. jieba 中文分词处理import jiebatext = "大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。"cut_result = jieba.cut(text, cut_all=True) # 全模式print(cut_result)print("\n全模式 : " + "/ ".join(cut_result))cut_result = jieba.cut(text, cut_all=False) # 精确模式pr

2021-09-16 17:04:34 17

原创 《自然语言处理》- 字符串常用操作

1. 字符串操作1.1 去空格和特殊符号strip() 去除两端的空格lstrip() 去除左边空格lstrip(str) 去除左边以 str 开头的部分, 必须完全匹配rstrip() 去除右边空格rstrip(str) 去除右边以 str 结尾的部分, 必须完全匹配s = ' hello , world!'print('|' + s.strip() + '|')print('|' + s.lstrip(' hello , ') + '|') # 删除以 hello

2021-09-11 17:25:47 94 2

原创 《自然语言处理》- Python正则表达式

1. Python 正则表达式1.1 正则表达式语法1.2 正则表达式工具在线验证工具正则练习工具2. Python案例Re 模块使用re的一般步骤是将正则表达式的字符串形式编译为 Pattern 实例使用 Pattern 实例处理文本并获得匹配结果(一个 Match 实例)使用 Match 实例获得信息,进行其他的操作。# encoding: UTF-8import rerule = r'hello.*\!' # 正则表达式规则 : 匹配 hello 开头, !

2021-09-11 17:25:08 27

原创 NLTK - 停用词下载

1. 停用词下载NLTK : https://www.nltk.org/data.html停用词下载地址 : http://www.nltk.org/nltk_data/2. 安装将下载后的 stopwords 放在虚拟环境的指定位置, nltk_data 和 corpora 是需要自己创建的3. 使用下载器下载这种方法很多时候是不能用的, 因为网络原因, 更换网络或者用自己手机热点多试几次, 不行的话就使用上面的手动下载的方式...

2021-09-10 12:47:14 48

原创 《动手学习深度学习》- 从零开始实现线性回归模型

1. 线性回归的从零开始实现本节将介绍如何只利用Tensor和GradientTape来实现一个线性回归的训练。首先,导入本节中实验所需的包或模块,其中的matplotlib包可用于作图,且设置成嵌入显示。%matplotlib inlineimport tensorflow as tfprint(tf.__version__)from matplotlib import pyplot as pltimport random2.3.02. 生成数据集我们构造一个简单的人工训练数

2021-09-08 12:04:44 24

原创 《动手学习深度学习》- Tensorflow自动求梯度

import tensorflow as tfimport numpy as nptf.__version__'2.3.0'1. 自动求梯度简介在深度学习中,我们经常需要对函数求梯度(gradient)。本节将介绍如何使用tensorflow2.0提供的GradientTape来自动求梯度。GradientTape 可以理解为“梯度流 记录磁带”:在记录阶段:记录被 GradientTape 包裹的运算过程中,依赖于 source node (被 watch “监视”的变量)的关系

2021-09-07 10:14:47 45

原创 《动手学习深度学习》- Tensorflow数据操作

import tensorflow as tftf.__version__'2.3.0'1. 创建 tensortensor 是存储和变换数据的主要工具, tensor 和 Numpy 的多维数组比较类似, 但是 tensor 可以提供 GPU 计算和自动求梯度等功能# 创建行向量x = tf.constant(range(12))x<tf.Tensor: shape=(12,), dtype=int32, numpy=array([ 0, 1, 2, 3, 4,

2021-09-06 13:02:32 24

原创 《Java8新特性》- lambda

1. Lambda 入门1.1 lambda表达式简介Lambda表达式是一个匿名函数, 我们可以把Lambda表 达式理解为是一段可以传递的代码(将代码像数据一样 进行传递) 。可以写出更简洁、更灵活的代码。作为一种更紧凑的代码风格,使得Java语言表达能力得到了提升。JDK8 中引入了一个新的操作符" -> "该操作符称为箭头操作符或Lambda操作符,箭头操作符将Lambda表达式拆分为两部分:左侧:Lambda表达式的参数列表。对应接口中抽象方法的参数列表。右侧:Lambda表达

2021-09-04 19:03:33 89

原创 《JUC并发编程》- JUC概述

juc并发编程概述部分, 简单介绍进程与线程, 管程等概念

2021-09-04 16:30:40 35

原创 修改ElementUI组件样式

1. 使用方法以 el-input 为例 找到实际的组件内置样式的代码<div class="chat-sent"> <el-input></el-input> <div> <el-button type="primary" size="mini">发送</el-button> </div> </div>这里注意

2021-08-30 22:02:57 116

CDH5.14离线搭建.md

CDH离线文档 下面的懒得写

2019-05-26

机器学习个人笔记完整版v5.4-A4打印版.pdf

吴恩达机器学习的笔记 需要的可以下载

2019-07-11

最新尚硅谷全套视频打包地址

尚硅谷的全套数据资源 有 java 前端 , 大数据 python 等等

2019-03-07

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除