自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 特征工程主要步骤

特征工程的主要步骤分6个:1.特征理解,学习如何识别定量数据和定性数据2.特征增强,清洗和填充缺失值,最大化数据集的价值3.特征选择,通过统计方法选择一部分特征,以减少数据噪声4.特征构建,构建新的特征,探索特征间的联系5.特征转换,提取数据中的隐藏结构,用数学方法转换数据集,增强效果6.特征学习,用简单的神经网络学习特征...

2021-05-08 18:09:17 3089

原创 tkinter创建Combobox联动

流程如下:1.构造列表之间的映射关系2.定义对第一个列表产生触发事件后,第二个列表得到的结果3.绑定事件下面是简单的月份对日期的联动效果(不考虑闰年),可以参考import tkinter as tkfrom tkinter import ttkroot = tk.Tk()root.title("test")#构造月份对日期列表的映射days31 = list(range(1,32))days30 = list(range(1,31))days28 = list(range(1

2020-12-23 12:03:52 1745 1

原创 python实现拓扑排序

def topsort(G): #创建计数器,用于记录每个节点的入度 count = dict((u,0) for u in G) #存储结果用的序列 seq = [] #统计G中节点的入度 for u in G: for v in G[u]: count[v] += 1 #寻找G中入度为0的节点 Q = [u for u in G if count[u] == 0] while Q:

2020-12-08 15:16:42 500

原创 Flask Web开发实战总结笔记4

一、ORM​ ORM:Object Relational Mapping,对象关系映射,在flask中即把底层的SQL数据转化为高层的python对象,通过python代码即可完成数据库操作。ORM实现了三层映射关系:​ 表 -> python类​ 字段(列) -> 类属性​ 记录(行) -> 类实例二、使用Flask-SQLAlchemy管理数据库​ 初始化扩展类:​ from flask_sqlalchemy import SQLAlchemey​ db = SQLAl

2020-11-20 16:46:50 299 1

原创 Flask Web开发实战总结笔记3

一、使用Flask-WTF处理表单​ html中表单用<form>标签创建,表单中的字段用<input>标签定义定义WTForms表单类从wtforms类导入Form基类和字段类,自定义类继承Form基类后,在自定义类里调用字段类作为函数创建对象(实例化)。常用的字段类有如:BooleanField,StringField,PasswordField等等,分别对应着不同的表单类在实例化字段时常用的参数有label,render_kw,validators,default

2020-11-18 20:28:52 231

原创 Flask Web开发实战总结笔记2

一、模板基本用法创建模板Jinja2里3种常用的界定符语句 {%…%},如if判断,for循环等表达式 {{…}},如字符串,变量,函数调用等注释 {#…#}模板语法以{%…%}为开头进行控制的输出后,需要在语句结束的地方加上{%end控制符%}作为结束标签渲染模板用Flask的render_template()函数来渲染模板,第一个参数为/templates下的文件名,后面的参数是模板内需要渲染的参数,左边为形参,右边为实参,若需要传入函数时,则只需传函数名即可二、模板

2020-10-30 11:41:33 357 1

原创 关于安装xgboost中升级cmake和gcc的步骤(无编译)

在centos7上安装xgboost的时候遇到这样的问题:File "/usr/local/lib/python3.5/subprocess.py", line 271, in check_call raise CalledProcessError(retcode, cmd) subprocess.CalledProcessError: Command '['cmake', 'xgboost', '-GUnix Makefiles', '-DUSE_OPENMP=1', '-DUS

2020-10-15 15:04:25 1587

原创 centos7增加/dev/mapper/centos-root的容量

问题概要:最近需要学习xgboost,通过pip下载安装的时候却报错:切换到root路径,查看每个文件夹的大小:可以得知整个root及其子目录仅有10G大小通过输入df -h获得每个目录下的大小情况:但是通过输入fdisk -l得知,总共大小应该有50G的:此时可以通过输入lsblk来查看分区的分支树分布:可以得知,硬盘sda并没有分区完全,50G只分出了大概12.2G的容量。解决思路:首先先对/dev/sda未分完全的部分进行新的分区和格式化操作,重启之后,通过lvm管理器追加容量到/d

2020-10-07 01:34:03 2109 1

原创 pytorch报错: scatter_cpu_(): Expected self.dtype to be equal to src.dtype

最近在初学pytorch,然后在运行代码的时候出现了这个错误:import torch as ta = t.arange(0,16).view(4,4)index = t.LongTensor([[0,1,2,3],[3,2,1,0]]).t()b = a.gather(1,index)c = t.zeros(4,4)c.scatter_(1,index,b)print(c)----------------------------------------------------Runtim

2020-09-14 10:19:31 3447 5

原创 hadoop3下配置hive3.0.0详细过程步骤

安装好hadoop3之后就需要安装hive了。在安装之前,需要了解清楚准备步骤和版本对应问题。在安装hive之前需要先安装mysql或者mariadb,两者之间的区别及共性在此不做赘述。关于版本对应问题,需要了解的是不同的hadoop版本所配置的hive,hbase等工具的版本是不同的,hive版本对应可以参考Hive:http://hive.apache.org/downloads.html,hbase版本对应可以参考这里HBase:http://hbase.apache.org/book.html#

2020-09-03 18:39:08 1341 1

原创 hadoop3 任务卡在map 0% reduce 0%的解决方案

在VMWare上面配置好了hadoop3之后,当然是先试跑一下案例。然而在master上面运行wordcount的时候却出现了卡在map 0% reduce 0%的情况,搜索了这个问题的相关解决方案,基本是修改yarn-site.xml的配置,如1.增大cpu数,yarn.nodemanager.resource.cpu-vcores2.增大每个节点可用内存,yarn.scheduler.maximum-allocation-mb3.调整虚拟内存值,yarn.nodemanager.vmem-pme

2020-08-31 12:04:55 4913

原创 centos7安装hadoop3详细过程及步骤(新手向)

本文主要思路参考了https://blog.csdn.net/u013457387/article/details/87856770的方法,但个人在配置过程中遇到过很多的问题,最终配置成功并在此总结。本伪分布式是在vmware上建立的,centos版本为7.7,java版本是自带的openjdk1.8.0,hadoop版本为3.2.1安装流程:#mermaid-svg-QbFCrEphc902crsn .label { font-family: 'trebuchet ms', verdan

2020-08-07 20:06:50 2700

原创 Flask Web开发实战总结笔记1

一、请求响应循环二、HTTP请求请求报文:请求方法,URL,协议版本,header,内容实体request对象(一些属性及方法)在flask中处理请求。1.路由匹配(app.url_map)2.设置监听的http方法(路由参数methods)3.URL处理(路由加入URL变量转换器)4.请求钩子(共5种)三、HTTP响应响应报文:协议版本,状态码,原因短语,响应首部和响应主体。常见的状态码。在flask中生成响应。1.重定向redirect() ,url_fo

2020-07-25 00:50:29 306

原创 统计学习方法 第十五章 奇异值分解

奇异值分解(SVD,singular value decomposition)是一种矩阵因子分解方法。任意一个m x n 矩阵都可以表现为三个矩阵的乘机形式,分别是m阶正交矩阵、降序排列非负对角线m x n矩阵和n阶正交矩阵。可以看做是矩阵数据压缩的一种方法,近似地表示原始矩阵,且在平方损失意义下的最优近似。SVD分解:A = UΣVT存在性证明过程略。SVD分解还有紧奇异值分解和截断奇异值分解。几何解释为,m x n矩阵A表示从n维空间Rn到m维空间Rm的一个线性变换,分解为:一个坐标系的旋转或反射

2020-07-07 16:24:09 848

原创 eclipse连接github

上次记录了如何用git bash连接github,现在来记录如何用eclipse连接github进行操作。如何把eclipse项目push到github1.用eclipse创建一对密钥。Window -> Preferences ->SSH2里面,点击Generate RSA Key…,之后Save Private Key…,不需要密码保护,保存到新的文件夹.ssh2(不和git bash里创建的密钥放一起,因为之前尝试使用git bash的密钥连接github却出现Auth fail)。

2020-06-29 21:15:23 413

原创 本地Git bash连接github(win10环境)

之前配置过服务器的git环境,但对于本地连接github倒是第一次,这里记录方法步骤。1.安装好git bash后打开,输入ssh-keygen -t rsa -C 你的git账号邮箱之后几个输入直接回车,之后若成功,在C:/users/Administrator下会有.ssh的文件夹,文件夹里有id_rsa和id_rsa.pub两个文件,id_rsa是私钥,本地保存;id_rsa.pub是公钥,用于上传。2.在github的Account-Settings-SSH and GPG keys上,点

2020-06-29 03:21:37 327

原创 统计学习方法 第十四章 聚类方法

聚类方法属于挖掘数据纵向结构的方法(假设为m*n矩阵,m为数据维度或者属性,n为数据个数),依据其特征的相似度或者距离进行归并到若干个“类”或者“簇”的过程。聚类属于无监督学习。常用的两种聚类算法:层次聚类(分聚合以及分裂两种算法)、k均值聚类算法。聚类的相似度或距离,有4种方法:闵可夫斯基距离,马哈拉诺比斯距离,相关系数,夹角余弦。通过定义距离之后就可以定义族或者簇,并定义类与类之间的距离。层次聚类假设类别之间存在层次结构,将样本聚到层次化的类中,这里不细讨论,主要描述k均值聚类算法。k均值聚类算法

2020-05-10 01:55:11 567

原创 统计学习方法 第十一章 条件随机场

条件随机场(CRF,conditional random field)是给定一组输入随机变量下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。通过概率无向图可以描述条件随机场。通常考虑线性链的情况。条件随机场有3种形式进行描述,分别是参数化形式、简化形式以及矩阵形式。参数化形式中,转移特征及对应权值、状态特征及对应权值均在表达式中给出;简化形式及把两个特征合并到...

2020-04-19 23:54:51 290

原创 统计学习方法 第十章 隐马尔可夫模型

隐马尔可夫模型(hidden Markov model,HMM)是可用于标注问题的统计学习模型,描述隐藏的马尔科夫链随机生成观测序列的过程,属于生成模型。由初始状态概率向量π、状态转移概率矩阵A和观测概率矩阵B决定的隐马尔可夫模型λ=(A,B,π)的3个基本问题,分别为:1.概率计算问题,在给定模型和观测序列,求该模型下序列出现的概率;2.学习问题,给定观测序列去求模型λ=(A,B,π)的参数...

2020-04-11 18:31:16 313

原创 统计学习方法 第九章 EM算法

EM算法是用于解决含有隐变量的概率模型参数的极大似然估计,每次迭代由两步组成,E步求期望,M步求极大。而对于高斯混合模型(GMM)上EM算法也是一个有效的解决方法。现以习题9.1为例,简单实现一下EM算法import numpy as np#计算E步def expectationCal(pi,p,q,y): u = pi * (p ** y) * ((1 - p) ** (1 -...

2020-04-02 15:48:27 484

原创 统计学习方法 第八章 AdaBoost

adaboost的原理是,由于在PAC学习的框架下,一个概念的强可学习的充要条件是这个概念是弱可学习的,所以就引出一个思路,对于二分类的数据,通过串行学习弱分类器,并使用加权多数表决方法对弱分类器组合成一个强分类器。而再引申后,adaboost也是损失函数为指数函数的加法模型,使用前向分步学习算法获得。现在直接通过代码展示其中的逻辑,该部分代码源于《机器学习实战》import numpy as...

2020-03-22 18:12:57 490

原创 数据仓库分层DWD、DWB、DWS

DW :data warehouse 翻译成数据仓库DW数据分层,由下到上为 DWD,DWB,DWSDWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。DWS:data warehouse service 服务...

2020-03-08 21:05:51 3694

原创 统计学习方法 第三章 K近邻法

k近邻的实现过程:1.计算已知类别数据集中的每个点与当前点之间的距离2.按照距离递增次序排序3.选取与当前距离最小的k个点4.确定前k个点所在的类别的出现频率5.返回前k个点出现频率最高的类别作为当前点的预测分类参考《机器学习实战》里的第二章,先做出原始形式的knn代码:import numpy as npimport operator#欧氏距离计算def dist_eucl...

2020-02-01 17:48:16 220

原创 统计学习方法 第二章 感知机

原理不多描述,直接上代码原始形式import numpy as npdef perceptron(x_arr,y_arr,eta = 1): data_mat = np.mat(x_arr) label_mat = np.mat(y_arr).T m,n = np.shape(data_mat) w = np.zeros((n,1)) b = 0 ...

2020-01-31 04:05:11 170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除