- 博客(28)
- 资源 (16)
- 问答 (16)
- 收藏
- 关注
原创 anaconda中jupyter旧新版本、虚拟环境区分:win下jupyter、notebook 、lab的配置
JupyterLab 4.0 和 Jupyter Notebook 7.0 及之后的版本`**,Jupyter Server 取代了原来的 Notebook App 服务,成为 Jupyter 平台的核心组件。
2019-10-16 20:44:49 1952 1
原创 特征选择
一、什么是特征选择?特征选择是对 根据所研究的问题 的 数据 根据数据字段与标签或者结果之间的相关程度进行选择,是效率(所研究问题的数据对问题结果的有效影响)达到最大化。二、为什么要进行特征选择?维度灾难 - 过度拟合 : 一般经验是当数据中的列数多于行数,可能会对模型产生不好的影响,即模型会过度地拟合数据,导致模少泛化能力。此外,大量特征使得模型体积庞大,耗时,并且难以在生产中实施。...
2019-10-24 21:58:34 641
翻译 了解自编码器
1.什么是自编码器?自动编码器是一种无监督的机器学习算法,该算法将图像作为输入并使用较少的位数来重建它。这听起来像是图像压缩,但是自动编码器和通用图像压缩算法之间的最大区别在于,在自动编码器的情况下,压缩是通过学习训练数据集来实现的。当图像类似于所使用的训练集时,虽然可以实现合理的压缩,但是自动编码器的通用图像压缩器不佳;JPEG压缩会做得更好。自动编码器在本质上类似于降维技术(例如主成分分析...
2019-10-24 21:04:45 269
翻译 概览激活函数-深度学习
一、什么是激活函数?典型神经元的物理结构包括细胞体(cell body)、向其他神经元发送信号的轴突(axon)和接收其他神经元发送的信号或信息的树突(dendrites)。上图中,红色圆圈代表两个神经元交流的区域。神经元通过树突接收来自其他神经元的信号。树突的权重叫作突触权值(synaptic weight),将和接收的信号相乘。来自树突的信号在细胞体内不断累积,如果信号强度超过特定阈值,...
2019-10-24 20:33:19 399
转载 深度学习笔记-收录
1. 训练误差和泛化误差对于机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢?因为存在着训练误差和泛化误差:训练误差:模型在训练数据集上表现出的误差。泛化误差:模型在任意⼀个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。训练误差的期望小于或...
2019-10-24 20:27:56 254
原创 关于Centos7防火墙命令使用
查看防火墙状态。得到结果是running或者not runningfirewall-cmd --state在running 状态下,向firewall 添加需要开放的端口:比如:firewall-cmd --permanent --zone=public --add-port=80/tcp这样外部设备就可以访问到80端口了。重新加载配置,使得修改(刚刚的添加要开放的端口)有效。f...
2019-10-22 21:59:25 211
原创 Hbase javaAPI基础操作
首先,main函数如下: public static void main(String[] arg) throws Exception { Configuration conf = new Configuration(); //给conf设置地址与操作用户 conf.set("hbase地址","用户名user"); HBas...
2019-10-22 21:56:47 290
原创 Hbase shell过滤操作
Get 和 Scan 操作都可以使用过滤器来设置输出的范围,类似于 SQL 里面的 Where 查询条件。使用 show_filters 命令可以查看当前 HBase 支持的 过滤器类型。show_filters使用过滤器的语法格式:scan '表名',{Filter => ”过滤器(比较运算符,’比较器’)”}解释:Filter=>指明过滤的方法,整体可用大括号引用,也可...
2019-10-22 21:53:31 3295
原创 Hbase shell基础操作
一、数据定义命令【表级别的操作、数据库级别的操作】1.输入以下命令进入hbase控制台:hbase shell2.查看所有的表:list3.create创建表:create 'TestLab',{NAME=>'lUE’},VERSIONS=>3},{NAME=>'lab2',BLOCKCACHE=>'true'}或者 create 'TestLab',’l...
2019-10-22 21:49:42 704
原创 python装饰器-总结一下
装饰器放在一个函数开始定义的地方,它就像一顶帽子一样戴在这个函数的头上。和这个函数绑定在一起。在调用这个函数的时候,第一件事并不是执行这个函数,而是将这个函数做为参数传入它头顶上这顶帽子,这顶帽子称之为 装饰器 。实际上,装饰器并不是编码必须性,意思就是说,你不使用装饰器完全可以,它的出现,应该是使我们的代码:更加优雅,代码结构更加清晰将实现特定的功能代码封装成装饰器,提高代码复用率,增强...
2019-10-22 20:58:31 269
原创 HDFS shell基础操作
一、操作命令HDFS的操作命令是以"hdfs dfs"开头的命令,其中hdfs是Hadoop系统在Linux系统中的主命令,dfs是子命令,用户通过命令可以完成hdfs文件的复制、移动、查找、删除等操作,HDFS Shell命令的一般格式如下:hdfs dfs [通用选项]其实就是 hdfs dfs -shell命令 -参数 执行内容或者作用的对象1.创建文件夹命令:hdfs dfs...
2019-10-22 12:06:05 693
原创 KNN-简单方法实现---《Python3机器学习与实战》总结+案例
KNN-简单方法实现,未总结KD树。k-近邻算法是通过测量不同特征值之间的距离进行分类的。基本思路是:如果一个样本在特征空间中的k个最近邻样本中的大多数属于某一个类别,则该样本也属于这一个类别。该方法在决定类别上只依据最近的一个或几个样本的类别来决定待分类样本所属的类别,在KNN中所选择的邻居都是已经正确分类的对象。KNN的算法流程:1.计算测试数据与各个训练数据之间的距离2.按照距离的...
2019-10-21 21:15:31 354
原创 笔记: 常用数据预处理总结
数据清理主要使将数据中缺失的值补充完整、消除噪声数据、识别和删除离群点并解决不一致性。主要达到目标是:将数据格式标准化、异常数据清楚、错误纠正、重复数据的清楚1.异常数据处理寻找异常数据:使用统计量进行判断:设有一个合理的范围,如果某个数据远远的超出其它数据,那么这个数据或者这些个数据就有可能是异常值。使用3&原则,根据正态分布的定义,距离平均值3&以外的数值出现...
2019-10-21 20:32:01 727
原创 centos没有ifconfig怎么办?
尝试安装ifconifg命令: yum install ifconfig如果没有这个包,那么去查找。如下:找有没有这个包:yum search ifconfig随后将查找到的net-tools.x86_64 给安装。yum install net-tools.x86_64 即可。...
2019-10-17 15:13:38 234
原创 总用常用损失函数
tensorflow好强好厉害啊好牛逼啊!!太厉害!so,我选择pytorch,哈哈。对于tensorflow,对于我一个深度新手来说,真的hold不住!所以,我决定转向其它比较友好的框架,等稳住了简单的,有兴趣或者有需要再来看看tensorflow。L1范数损失 L1Loss计算 output 和 target 之差的绝对值。torch.nn.L1Loss(reduction='me...
2019-10-16 22:50:04 395
原创 已解决:centos7下如何将服务挂在服务器后台?
首先,linux可以使用多种远程连接,比如xshell,然后类似xshell这种远程连接方式也需要注意几点。启动某个pythonweb项目或者其它项目是,断开连接的时候有可能会断开服务。linux下如何把某个即将运行项目服务挂在后台运行而断开xshell的时候服务不停止呢:nohup 你的命令 &比如 nohup python3 flask_demo.py &&...
2019-10-16 22:23:30 2419
原创 非web专业、业余web人员上手--tocamt服务器快速上手使用
解压:tar -xzvf tocamt-apache.tar.gz配置tocamt:编辑tocamt配置目录下的server.xml 文件其中,代表一个项目,相当于一个进程目录吧。port="8080"就是开放的端口,访问web的时候,使用IP:端口即可访问到webapp目录下的web项目。这里的appBase表示web项目的路径,也就是相当于index.html在什么路径下。...
2019-10-16 22:20:22 288
原创 Centos7安装配置VNC--亲测可行
安装service:yum install tigervnc-server tigervnc-server-module安装viewer:yum install vnc停止或者禁用防火墙:【以便访问端口、或者可以将端口加入白名单】systemctl stop firewalld.servicesystemctl disable firewalld.servicevncserver的配...
2019-10-16 22:17:44 924
原创 关于时间序列
如果画图之后,时间序列不是平稳的,那么用拆分法将其处理成平稳的时间序列。数据平稳:平稳性要求序列的均值和方差不发生明显变化,在拟合曲线之后,在未来的一段时间内仍能顺着现有的形态”惯性”的延续下去。严平稳:表示分布不随时间的改变而改变。弱平稳:期望与相关系数不变,未来某时刻的t的值xt就要依赖于它的过去信息,需要依赖性。差分法:时间序列数据在t与t-1时刻的差值,依次类推:自回归模型:...
2019-10-16 21:11:01 562
原创 XGBoost原理
我终于会用word编写数学公式啦!…可惜复制不过来,只能截图XGBoost核心思想是多个基础模型的线性拟合,基础模型使用CART树(我喜欢),因为CART树普遍来讲要比线性基础模型的效果要好。首先,xgboost采用的是加法训练,也就是要确定第t颗树最优,先确定第t-1颗树最优,依次类推。所以,其目标函数:表示经过第t轮迭代后的模型预测值, 表示已知t-1个基础模型得到预测值; 表示第...
2019-10-16 21:01:48 1412
原创 卷积与池化基础【MOOC课手记】
卷积【卷积层】卷积是有效提取图像特征的方法:因为直接使用高分辨率的图会导致过拟合的发生。故先对原始图像进行特征提取然后再把提取到的特征喂给神经网络。用一个正方形卷积核,遍历图片上的每个点。图片区域内,相对应的每一个像素值,乘以卷积核内相对应点的权重,求和,再加上偏置。假设有一个5* 5* 1的灰度图片,则在图片中定义一个3* 3* 1的正方形卷积核,在图片区域上每个像素点上都有相对应的每一...
2019-10-16 20:50:11 397
原创 Scrapy爬虫框架-如何快速了解与上手
一、Scrapy框架结构图:组件含义解释:Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader(下载器):负责下载Scrapy En...
2019-10-16 20:47:30 278
原创 已解决:如何使用IDEA生成java帮助文档java doc?
javadoc是Sun公司提供的一个技术,它从程序源代码中抽取类、方法、成员等注释形成一个和源代码配套的API帮助文档。也就是说,只要在编写程序时以一套特定的标签作注释,在程序编写完成后,通过Javadoc就可以同时形成程序的开发文档了。常用的Tag:在编写完文档注释和代码之后,进行如下操作:在IDEA中点击 Tools > Generate javadoc:进入:解释说明:...
2019-10-13 13:04:10 4742
原创 教程:win10、py3.7如何安装Scrapy?
由于重新安装了anaconda,但是想抓点数据做分析,以便考研参考,所以我需要去重新安装Scrapy。首先,需要安装好python环境。其次需要下载必要的包,如下:这是我以前下载过的包,磁盘里有备份着。当然还有:根据自己的python环境,我的是py3.7。一定要下载对版本!一定要下载对版本!一定要下载对版本!首先,安装wheel库:(我这里已经有了)pip instal...
2019-10-13 11:24:10 280
原创 git配置-常用命令-github
git常用命令1.配置的作用是显示谁在GitHub上提交了项目1)初始化用户名:git config --global user.name ‘chenruhai’2)初始化邮箱:git config --global user.email ‘ruhai.chen@qq.com’3)查看配置:git config --list一、本地基础操作如下2.在文件夹内新建文件夹并创建git仓库,克隆的可以直接操...
2019-10-01 20:35:42 317
原创 初级算法-数组-题目2
**题目2:**给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。示例1:输入: [7,1,5,3,6,4]输出: 7解释: 在第 2 天(股票价格 = 1)的时候买入,在第 3 天(股票价格 = 5)的时候卖出, 这笔交易所能获得利润 = 5-1 = 4 。随后,在第 4 天(股票价格 = 3)的时候买入,在第 5 天(股票价格 = 6)的时候卖出, 这笔交易所能获得利润 ...
2019-10-01 19:41:36 151
原创 初级算法-数组-题目1-去重
题目1:给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例:给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的前五个元素被修改为 0, 1, 2, 3, 4。你不需要考虑数组中超出...
2019-10-01 19:36:58 231
时间序列的详细介绍以及案例
2023-05-30
Linear+XGBosst预测代码+客流量预测demo.rar
2021-11-05
中文分词词典UserDict.txt
2021-02-28
lightning和pytorch-lightning的区别?
2023-08-13
如何从一组包含近似正太分布子数据a的偏态分布数据b中把a给提取出来吗?
2023-06-25
pycharm 编辑 requirements.txt 非常卡,该如何解决?
2023-04-14
时间序列中,神经网络最后一层的含义是什么?
2023-03-09
cupti64_113.dll not found
2023-02-03
Python深度学习的时候屏幕显示线插在独立显卡还是集成显卡好?
2023-02-01
Python如何在程序最后获取控制台输出内容?
2022-12-17
python 如何将tqdm和logging日志相结合
2022-12-09
python多进程情况下只有主进程在跑,但是子进程一动不动怎么办?
2022-12-02
使用KMeans拟合数据的时候出现警告You can avoid it by setting the environment variable OMP_NUM_THREADS=2
2022-11-09
对整个数据集数据标准化后再划分训练集、测试集和先对训练集标准化再将规则用于测试集 的思考
2022-02-22
pandas线性插值报错:ValueError: Invalid fill method. Expecting pad (ffill) or backfill (bfill). Got linear
2022-01-21
为什么我觉得transformer就像是在瞎猜呢?
2021-12-10
为什么用torch保存模型占用磁盘那么大?怎么样保存模型占用磁盘空间小?
2021-12-09
预测结果是一个多维数组,必须要打平才能计算loss吗?
2021-12-09
torch的SmoothL1Loss()是huber loss吗?
2021-12-07
关于申请github学生开发包和jetbrains免费使用的过程中遇到的问题?
2021-11-29
和鲸社区的GPU环境出现报错
2021-11-13
关于solo博客系统静态资源无法正常加载的问题。。。
2019-08-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人