2019年10月_Tony Einstein

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 anaconda中jupyter旧新版本、虚拟环境区分：win下jupyter、notebook 、lab的配置

JupyterLab 4.0 和 Jupyter Notebook 7.0 及之后的版本`**，Jupyter Server 取代了原来的 Notebook App 服务，成为 Jupyter 平台的核心组件。

2019-10-16 20:44:49 1952 1

原创特征选择

一、什么是特征选择？特征选择是对根据所研究的问题的数据根据数据字段与标签或者结果之间的相关程度进行选择，是效率(所研究问题的数据对问题结果的有效影响)达到最大化。二、为什么要进行特征选择？维度灾难 - 过度拟合 : 一般经验是当数据中的列数多于行数，可能会对模型产生不好的影响，即模型会过度地拟合数据，导致模少泛化能力。此外，大量特征使得模型体积庞大，耗时，并且难以在生产中实施。...

2019-10-24 21:58:34 641

1.什么是自编码器？自动编码器是一种无监督的机器学习算法，该算法将图像作为输入并使用较少的位数来重建它。这听起来像是图像压缩，但是自动编码器和通用图像压缩算法之间的最大区别在于，在自动编码器的情况下，压缩是通过学习训练数据集来实现的。当图像类似于所使用的训练集时，虽然可以实现合理的压缩，但是自动编码器的通用图像压缩器不佳；JPEG压缩会做得更好。自动编码器在本质上类似于降维技术（例如主成分分析...

2019-10-24 21:04:45 269

翻译概览激活函数-深度学习

一、什么是激活函数？典型神经元的物理结构包括细胞体（cell body）、向其他神经元发送信号的轴突（axon）和接收其他神经元发送的信号或信息的树突（dendrites）。上图中，红色圆圈代表两个神经元交流的区域。神经元通过树突接收来自其他神经元的信号。树突的权重叫作突触权值（synaptic weight），将和接收的信号相乘。来自树突的信号在细胞体内不断累积，如果信号强度超过特定阈值，...

2019-10-24 20:33:19 399

转载深度学习笔记-收录

1. 训练误差和泛化误差对于机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数，你也许发现了：当模型在训练数据集上更准确时，它在测试数据集上却不⼀定更准确。这是为什么呢？因为存在着训练误差和泛化误差：训练误差：模型在训练数据集上表现出的误差。泛化误差：模型在任意⼀个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。训练误差的期望小于或...

2019-10-24 20:27:56 254

原创关于Centos7防火墙命令使用

查看防火墙状态。得到结果是running或者not runningfirewall-cmd --state在running 状态下，向firewall 添加需要开放的端口:比如：firewall-cmd --permanent --zone=public --add-port=80/tcp这样外部设备就可以访问到80端口了。重新加载配置，使得修改(刚刚的添加要开放的端口)有效。f...

2019-10-22 21:59:25 211

原创 Hbase javaAPI基础操作

首先，main函数如下: public static void main(String[] arg) throws Exception { Configuration conf = new Configuration(); //给conf设置地址与操作用户 conf.set("hbase地址","用户名user"); HBas...

2019-10-22 21:56:47 290

原创 Hbase shell过滤操作

Get 和 Scan 操作都可以使用过滤器来设置输出的范围，类似于 SQL 里面的 Where 查询条件。使用 show_filters 命令可以查看当前 HBase 支持的过滤器类型。show_filters使用过滤器的语法格式：scan '表名',{Filter => ”过滤器(比较运算符,’比较器’)”}解释：Filter=>指明过滤的方法,整体可用大括号引用,也可...

2019-10-22 21:53:31 3295

原创 Hbase shell基础操作

一、数据定义命令【表级别的操作、数据库级别的操作】1.输入以下命令进入hbase控制台:hbase shell2.查看所有的表:list3.create创建表:create 'TestLab',{NAME=>'lUE’},VERSIONS=>3},{NAME=>'lab2',BLOCKCACHE=>'true'}或者 create 'TestLab',’l...

2019-10-22 21:49:42 704

原创 python装饰器-总结一下

装饰器放在一个函数开始定义的地方，它就像一顶帽子一样戴在这个函数的头上。和这个函数绑定在一起。在调用这个函数的时候，第一件事并不是执行这个函数，而是将这个函数做为参数传入它头顶上这顶帽子，这顶帽子称之为装饰器。实际上，装饰器并不是编码必须性，意思就是说，你不使用装饰器完全可以，它的出现，应该是使我们的代码:更加优雅，代码结构更加清晰将实现特定的功能代码封装成装饰器，提高代码复用率，增强...

2019-10-22 20:58:31 269

原创 HDFS shell基础操作

一、操作命令HDFS的操作命令是以"hdfs dfs"开头的命令，其中hdfs是Hadoop系统在Linux系统中的主命令，dfs是子命令，用户通过命令可以完成hdfs文件的复制、移动、查找、删除等操作，HDFS Shell命令的一般格式如下：hdfs dfs [通用选项]其实就是 hdfs dfs -shell命令 -参数执行内容或者作用的对象1.创建文件夹命令：hdfs dfs...

2019-10-22 12:06:05 693

原创 KNN-简单方法实现---《Python3机器学习与实战》总结+案例

KNN-简单方法实现,未总结KD树。k-近邻算法是通过测量不同特征值之间的距离进行分类的。基本思路是：如果一个样本在特征空间中的k个最近邻样本中的大多数属于某一个类别，则该样本也属于这一个类别。该方法在决定类别上只依据最近的一个或几个样本的类别来决定待分类样本所属的类别，在KNN中所选择的邻居都是已经正确分类的对象。KNN的算法流程:1.计算测试数据与各个训练数据之间的距离2.按照距离的...

2019-10-21 21:15:31 354

原创笔记：常用数据预处理总结

数据清理主要使将数据中缺失的值补充完整、消除噪声数据、识别和删除离群点并解决不一致性。主要达到目标是:将数据格式标准化、异常数据清楚、错误纠正、重复数据的清楚1.异常数据处理寻找异常数据：使用统计量进行判断：设有一个合理的范围，如果某个数据远远的超出其它数据，那么这个数据或者这些个数据就有可能是异常值。使用3&原则，根据正态分布的定义，距离平均值3&以外的数值出现...

2019-10-21 20:32:01 727

原创 centos7更改默认启动方式

【代码】centos7更改默认启动方式。

2019-10-18 13:17:10 425

原创 centos没有ifconfig怎么办？

尝试安装ifconifg命令： yum install ifconfig如果没有这个包，那么去查找。如下:找有没有这个包：yum search ifconfig随后将查找到的net-tools.x86_64 给安装。yum install net-tools.x86_64 即可。...

2019-10-17 15:13:38 234

原创总用常用损失函数

tensorflow好强好厉害啊好牛逼啊！！太厉害！so，我选择pytorch，哈哈。对于tensorflow，对于我一个深度新手来说，真的hold不住！所以，我决定转向其它比较友好的框架，等稳住了简单的，有兴趣或者有需要再来看看tensorflow。L1范数损失 L1Loss计算 output 和 target 之差的绝对值。torch.nn.L1Loss(reduction='me...

2019-10-16 22:50:04 395

原创已解决：centos7下如何将服务挂在服务器后台?

首先，linux可以使用多种远程连接，比如xshell，然后类似xshell这种远程连接方式也需要注意几点。启动某个pythonweb项目或者其它项目是，断开连接的时候有可能会断开服务。linux下如何把某个即将运行项目服务挂在后台运行而断开xshell的时候服务不停止呢：nohup 你的命令 &比如 nohup python3 flask_demo.py &&...

2019-10-16 22:23:30 2419

原创非web专业、业余web人员上手--tocamt服务器快速上手使用

解压：tar -xzvf tocamt-apache.tar.gz配置tocamt：编辑tocamt配置目录下的server.xml 文件其中，代表一个项目，相当于一个进程目录吧。port="8080"就是开放的端口，访问web的时候，使用IP:端口即可访问到webapp目录下的web项目。这里的appBase表示web项目的路径，也就是相当于index.html在什么路径下。...

2019-10-16 22:20:22 288

原创 Centos7安装配置VNC--亲测可行

安装service:yum install tigervnc-server tigervnc-server-module安装viewer:yum install vnc停止或者禁用防火墙：【以便访问端口、或者可以将端口加入白名单】systemctl stop firewalld.servicesystemctl disable firewalld.servicevncserver的配...

2019-10-16 22:17:44 924

原创关于时间序列

如果画图之后，时间序列不是平稳的，那么用拆分法将其处理成平稳的时间序列。数据平稳:平稳性要求序列的均值和方差不发生明显变化，在拟合曲线之后，在未来的一段时间内仍能顺着现有的形态”惯性”的延续下去。严平稳:表示分布不随时间的改变而改变。弱平稳:期望与相关系数不变，未来某时刻的t的值xt就要依赖于它的过去信息，需要依赖性。差分法:时间序列数据在t与t-1时刻的差值,依次类推:自回归模型:...

2019-10-16 21:11:01 562

原创 XGBoost原理

我终于会用word编写数学公式啦！…可惜复制不过来,只能截图XGBoost核心思想是多个基础模型的线性拟合，基础模型使用CART树(我喜欢)，因为CART树普遍来讲要比线性基础模型的效果要好。首先，xgboost采用的是加法训练，也就是要确定第t颗树最优，先确定第t-1颗树最优，依次类推。所以，其目标函数:表示经过第t轮迭代后的模型预测值，表示已知t-1个基础模型得到预测值; 表示第...

2019-10-16 21:01:48 1412

原创卷积与池化基础【MOOC课手记】

卷积【卷积层】卷积是有效提取图像特征的方法:因为直接使用高分辨率的图会导致过拟合的发生。故先对原始图像进行特征提取然后再把提取到的特征喂给神经网络。用一个正方形卷积核，遍历图片上的每个点。图片区域内，相对应的每一个像素值，乘以卷积核内相对应点的权重，求和，再加上偏置。假设有一个5* 5* 1的灰度图片，则在图片中定义一个3* 3* 1的正方形卷积核，在图片区域上每个像素点上都有相对应的每一...

2019-10-16 20:50:11 397

原创 Scrapy爬虫框架-如何快速了解与上手

一、Scrapy框架结构图：组件含义解释：Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。Downloader（下载器）：负责下载Scrapy En...

2019-10-16 20:47:30 278

原创已解决：如何使用IDEA生成java帮助文档java doc？

javadoc是Sun公司提供的一个技术，它从程序源代码中抽取类、方法、成员等注释形成一个和源代码配套的API帮助文档。也就是说，只要在编写程序时以一套特定的标签作注释，在程序编写完成后，通过Javadoc就可以同时形成程序的开发文档了。常用的Tag：在编写完文档注释和代码之后,进行如下操作:在IDEA中点击 Tools > Generate javadoc:进入：解释说明:...

2019-10-13 13:04:10 4742

原创教程：win10、py3.7如何安装Scrapy?

由于重新安装了anaconda，但是想抓点数据做分析，以便考研参考，所以我需要去重新安装Scrapy。首先，需要安装好python环境。其次需要下载必要的包，如下:这是我以前下载过的包，磁盘里有备份着。当然还有:根据自己的python环境，我的是py3.7。一定要下载对版本！一定要下载对版本！一定要下载对版本！首先，安装wheel库：(我这里已经有了)pip instal...

2019-10-13 11:24:10 280

原创 git配置-常用命令-github

git常用命令1.配置的作用是显示谁在GitHub上提交了项目1）初始化用户名：git config --global user.name ‘chenruhai’2）初始化邮箱：git config --global user.email ‘ruhai.chen@qq.com’3）查看配置：git config --list一、本地基础操作如下2.在文件夹内新建文件夹并创建git仓库,克隆的可以直接操...

2019-10-01 20:35:42 317

原创初级算法-数组-题目2

**题目2：**给定一个数组，它的第 i 个元素是一支给定股票第 i 天的价格。示例1：输入: [7,1,5,3,6,4]输出: 7解释: 在第 2 天（股票价格 = 1）的时候买入，在第 3 天（股票价格 = 5）的时候卖出, 这笔交易所能获得利润 = 5-1 = 4 。随后，在第 4 天（股票价格 = 3）的时候买入，在第 5 天（股票价格 = 6）的时候卖出, 这笔交易所能获得利润 ...

2019-10-01 19:41:36 151

原创初级算法-数组-题目1-去重

题目1:给定一个排序数组，你需要在原地删除重复出现的元素，使得每个元素只出现一次，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例：给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的前五个元素被修改为 0, 1, 2, 3, 4。你不需要考虑数组中超出...

2019-10-01 19:36:58 231

一键查找cupti.dll文件的bat脚本

在进行深度学习训练的时候经常出现该文件丢失或者不存在，那么可以使用这个脚本算进进行一键查找和对比文件。实测很方便很有效。

2023-07-25

一键网络修复(dns)bat脚本

在网线有网络的情况下，修复网络差、网速慢、打不开网页、上的了QQ打不开网页等这种情况，修复dns，让你的网络更加流畅。

2023-07-25

时间序列的详细介绍以及案例

争对时间序列的一些解释的说明，很详细，有案例，有代数矩阵说明。什么是时间序列？时间序列是指按照时间顺序排列的一组数据序列，通常是均匀间隔的一系列观测值。这些观测值可以是物理现象、经济指标等任何量的测量结果，时间序列数据在时间轴上展示了某种现象的随时间变化的趋势和规律，因此被广泛用于各种领域的预测分析、趋势分析、周期性分析等研究和决策。时间序列分析是一种基于统计学和数学方法的分析方法，主要目的是描述、解释和预测时间序列数据的变化和趋势。以下的概念详细叙述角度，均是站在机器学习、深度学习建模的角度上进行阐述的。 (1) 滑动窗口windows_size，又分为特征X滑动窗口x_windows_size和标签y滑动窗口y_windows_size。特征X滑动窗口x_windows_size，顾名思义就是输入数据x上的窗口大小。标签y滑动窗口y_windows_size则是输出数据y上的窗口大小。一般来说，x_windows_size要大于或远远（比如是两倍）大于y_windows_size，那么模型学习的信息才不会欠拟合（因为这里增加了x和y之间的复杂度但是却降低了信息

2023-05-30