Akari0216-CSDN博客

原创特征工程主要步骤

特征工程的主要步骤分6个：1.特征理解，学习如何识别定量数据和定性数据2.特征增强，清洗和填充缺失值，最大化数据集的价值3.特征选择，通过统计方法选择一部分特征，以减少数据噪声4.特征构建，构建新的特征，探索特征间的联系5.特征转换，提取数据中的隐藏结构，用数学方法转换数据集，增强效果6.特征学习，用简单的神经网络学习特征...

2021-05-08 18:09:17 4040

流程如下：1.构造列表之间的映射关系2.定义对第一个列表产生触发事件后，第二个列表得到的结果3.绑定事件下面是简单的月份对日期的联动效果（不考虑闰年），可以参考import tkinter as tkfrom tkinter import ttkroot = tk.Tk()root.title("test")#构造月份对日期列表的映射days31 = list(range(1,32))days30 = list(range(1,31))days28 = list(range(1

2020-12-23 12:03:52 1949 1

原创 python实现拓扑排序

def topsort(G): #创建计数器，用于记录每个节点的入度 count = dict((u,0) for u in G) #存储结果用的序列 seq = [] #统计G中节点的入度 for u in G: for v in G[u]: count[v] += 1 #寻找G中入度为0的节点 Q = [u for u in G if count[u] == 0] while Q:

2020-12-08 15:16:42 576

原创 Flask Web开发实战总结笔记4

一、ORM ORM:Object Relational Mapping，对象关系映射，在flask中即把底层的SQL数据转化为高层的python对象，通过python代码即可完成数据库操作。ORM实现了三层映射关系: 表 -> python类字段(列) -> 类属性记录(行) -> 类实例二、使用Flask-SQLAlchemy管理数据库初始化扩展类： from flask_sqlalchemy import SQLAlchemey db = SQLAl

2020-11-20 16:46:50 363 1

原创 Flask Web开发实战总结笔记3

一、使用Flask-WTF处理表单 html中表单用<form>标签创建，表单中的字段用<input>标签定义定义WTForms表单类从wtforms类导入Form基类和字段类，自定义类继承Form基类后，在自定义类里调用字段类作为函数创建对象(实例化)。常用的字段类有如：BooleanField,StringField,PasswordField等等，分别对应着不同的表单类在实例化字段时常用的参数有label，render_kw，validators，default

2020-11-18 20:28:52 313

原创 Flask Web开发实战总结笔记2

一、模板基本用法创建模板Jinja2里3种常用的界定符语句 {%…%}，如if判断，for循环等表达式 {{…}}，如字符串，变量，函数调用等注释 {#…#}模板语法以{%…%}为开头进行控制的输出后，需要在语句结束的地方加上{%end控制符%}作为结束标签渲染模板用Flask的render_template()函数来渲染模板，第一个参数为/templates下的文件名，后面的参数是模板内需要渲染的参数，左边为形参，右边为实参，若需要传入函数时，则只需传函数名即可二、模板

2020-10-30 11:41:33 419 1

原创关于安装xgboost中升级cmake和gcc的步骤（无编译）

在centos7上安装xgboost的时候遇到这样的问题：File "/usr/local/lib/python3.5/subprocess.py", line 271, in check_call raise CalledProcessError(retcode, cmd) subprocess.CalledProcessError: Command '['cmake', 'xgboost', '-GUnix Makefiles', '-DUSE_OPENMP=1', '-DUS

2020-10-15 15:04:25 1795

原创 centos7增加/dev/mapper/centos-root的容量

问题概要：最近需要学习xgboost，通过pip下载安装的时候却报错：切换到root路径，查看每个文件夹的大小：可以得知整个root及其子目录仅有10G大小通过输入df -h获得每个目录下的大小情况：但是通过输入fdisk -l得知，总共大小应该有50G的：此时可以通过输入lsblk来查看分区的分支树分布：可以得知,硬盘sda并没有分区完全，50G只分出了大概12.2G的容量。解决思路：首先先对/dev/sda未分完全的部分进行新的分区和格式化操作，重启之后，通过lvm管理器追加容量到/d

2020-10-07 01:34:03 2372 1

原创 pytorch报错: scatter_cpu_(): Expected self.dtype to be equal to src.dtype

最近在初学pytorch,然后在运行代码的时候出现了这个错误：import torch as ta = t.arange(0,16).view(4,4)index = t.LongTensor([[0,1,2,3],[3,2,1,0]]).t()b = a.gather(1,index)c = t.zeros(4,4)c.scatter_(1,index,b)print(c)----------------------------------------------------Runtim

2020-09-14 10:19:31 3736 5

原创 hadoop3下配置hive3.0.0详细过程步骤

安装好hadoop3之后就需要安装hive了。在安装之前，需要了解清楚准备步骤和版本对应问题。在安装hive之前需要先安装mysql或者mariadb，两者之间的区别及共性在此不做赘述。关于版本对应问题，需要了解的是不同的hadoop版本所配置的hive,hbase等工具的版本是不同的，hive版本对应可以参考Hive:http://hive.apache.org/downloads.html，hbase版本对应可以参考这里HBase:http://hbase.apache.org/book.html#

2020-09-03 18:39:08 1502 1

原创 hadoop3 任务卡在map 0% reduce 0%的解决方案

在VMWare上面配置好了hadoop3之后，当然是先试跑一下案例。然而在master上面运行wordcount的时候却出现了卡在map 0% reduce 0%的情况，搜索了这个问题的相关解决方案，基本是修改yarn-site.xml的配置，如1.增大cpu数，yarn.nodemanager.resource.cpu-vcores2.增大每个节点可用内存，yarn.scheduler.maximum-allocation-mb3.调整虚拟内存值，yarn.nodemanager.vmem-pme

2020-08-31 12:04:55 5503

原创 centos7安装hadoop3详细过程及步骤（新手向）

本文主要思路参考了https://blog.csdn.net/u013457387/article/details/87856770的方法，但个人在配置过程中遇到过很多的问题，最终配置成功并在此总结。本伪分布式是在vmware上建立的，centos版本为7.7，java版本是自带的openjdk1.8.0，hadoop版本为3.2.1安装流程：#mermaid-svg-QbFCrEphc902crsn .label { font-family: 'trebuchet ms', verdan

2020-08-07 20:06:50 2997

原创 Flask Web开发实战总结笔记1

一、请求响应循环二、HTTP请求请求报文：请求方法，URL，协议版本，header，内容实体request对象（一些属性及方法）在flask中处理请求。1.路由匹配（app.url_map)2.设置监听的http方法（路由参数methods）3.URL处理（路由加入URL变量转换器）4.请求钩子（共5种）三、HTTP响应响应报文：协议版本，状态码，原因短语，响应首部和响应主体。常见的状态码。在flask中生成响应。1.重定向redirect() ，url_fo

2020-07-25 00:50:29 373

原创统计学习方法第十五章奇异值分解

奇异值分解（SVD，singular value decomposition）是一种矩阵因子分解方法。任意一个m x n 矩阵都可以表现为三个矩阵的乘机形式，分别是m阶正交矩阵、降序排列非负对角线m x n矩阵和n阶正交矩阵。可以看做是矩阵数据压缩的一种方法，近似地表示原始矩阵，且在平方损失意义下的最优近似。SVD分解：A = UΣVT存在性证明过程略。SVD分解还有紧奇异值分解和截断奇异值分解。几何解释为，m x n矩阵A表示从n维空间Rn到m维空间Rm的一个线性变换，分解为：一个坐标系的旋转或反射

2020-07-07 16:24:09 919

原创 eclipse连接github

上次记录了如何用git bash连接github，现在来记录如何用eclipse连接github进行操作。如何把eclipse项目push到github1.用eclipse创建一对密钥。Window -> Preferences ->SSH2里面，点击Generate RSA Key…，之后Save Private Key…，不需要密码保护，保存到新的文件夹.ssh2（不和git bash里创建的密钥放一起，因为之前尝试使用git bash的密钥连接github却出现Auth fail）。

2020-06-29 21:15:23 482

原创本地Git bash连接github（win10环境）

之前配置过服务器的git环境，但对于本地连接github倒是第一次，这里记录方法步骤。1.安装好git bash后打开，输入ssh-keygen -t rsa -C 你的git账号邮箱之后几个输入直接回车，之后若成功，在C:/users/Administrator下会有.ssh的文件夹，文件夹里有id_rsa和id_rsa.pub两个文件，id_rsa是私钥，本地保存；id_rsa.pub是公钥，用于上传。2.在github的Account-Settings-SSH and GPG keys上，点

2020-06-29 03:21:37 378

原创统计学习方法第十四章聚类方法

聚类方法属于挖掘数据纵向结构的方法（假设为m*n矩阵，m为数据维度或者属性，n为数据个数），依据其特征的相似度或者距离进行归并到若干个“类”或者“簇”的过程。聚类属于无监督学习。常用的两种聚类算法：层次聚类（分聚合以及分裂两种算法）、k均值聚类算法。聚类的相似度或距离，有4种方法：闵可夫斯基距离，马哈拉诺比斯距离，相关系数，夹角余弦。通过定义距离之后就可以定义族或者簇，并定义类与类之间的距离。层次聚类假设类别之间存在层次结构，将样本聚到层次化的类中，这里不细讨论，主要描述k均值聚类算法。k均值聚类算法

2020-05-10 01:55:11 670

Akari0216的博客

原创特征工程主要步骤

原创 tkinter创建Combobox联动

原创 python实现拓扑排序

原创 Flask Web开发实战总结笔记4

原创 Flask Web开发实战总结笔记3

原创 Flask Web开发实战总结笔记2

原创关于安装xgboost中升级cmake和gcc的步骤（无编译）

原创 centos7增加/dev/mapper/centos-root的容量

原创 pytorch报错: scatter_cpu_(): Expected self.dtype to be equal to src.dtype

原创 hadoop3下配置hive3.0.0详细过程步骤

原创 hadoop3 任务卡在map 0% reduce 0%的解决方案

原创 centos7安装hadoop3详细过程及步骤（新手向）

原创 Flask Web开发实战总结笔记1

原创统计学习方法第十五章奇异值分解

原创 eclipse连接github

原创本地Git bash连接github（win10环境）

原创统计学习方法第十四章聚类方法

原创统计学习方法第十一章条件随机场

原创统计学习方法第十章隐马尔可夫模型

原创统计学习方法第九章 EM算法

原创统计学习方法第八章 AdaBoost

原创数据仓库分层DWD、DWB、DWS

原创统计学习方法第三章 K近邻法

原创统计学习方法第二章感知机

空空如也

空空如也