自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 项目管理学习DAY2—十大领域、五大过程组

所有项目都可通过五大过程组与十大知识领域,相互交叉进行拆解,从而完成对整个项目目标实现路径的规划,并进而对整个项目进行管理。

2023-04-04 23:09:33 109

原创 项目管理学习DAY1——入门误区

概述项目管理的底层思维——对焦个人理解:对焦是第二步,第一步是找到焦点,其中包括四个维度(目标、人力、计划、行动)项目管理误区亮点Great power means great responsibility能力越强,责任就越大误区一:总想亲力亲为成功事件影响的三个层次(让人知道做、有动力做、有能力做)误区二:不是亲力亲为,却逐个跟踪依靠工具,规则,流程,规范化约束误区三:没有焦点,分不清轻重缓急做一个项目最重要的不在于开始,在于了解与分析

2023-04-03 23:44:03 96

原创 从样本集到WOE、IV值的变迁

从样本集到WOE、IV值的变迁样本集在建模任务开始之前首先需要有训练数据,也就是样本集。在对样本集的所有特征数据进行整理和预处理后,就可以对每一个特征的各个取值计算WOE。WOE(Weight of Evidence)证据权重WOE是对原始特征的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱),如果是离散变量可以直接进行编码。对每个分组或取值,响应比例(二分类取值为1的正样本比例)越大,WOE值越大;当前分组WOE的正负,由当前分组响应和未响

2021-11-04 19:00:00 265

原创 SQL取表中某字段的最新日期对应数据

SQL取表中某字段的最新日期对应数据多条SQL实现,适合数据量比较大的情况SQL为Teradata下代码,其它数据库需作调整创建临时表,存储要取字段的范围create multiset volatile table tmp_table( key_name varchar(100), last_date varchar(100))ON COMMIT PRESERVE ROWS;取对应字段及其最新日期insert into tmp_tableselect key_name

2021-10-24 14:42:10 7426

原创 SAS通过Merge实现SQL中in操作

场景假设有某班学生名单列表(小表)name_list(name id),以及全校学生信息数据表(大表)student_info(name id parent address email),现在需要根据全校学生名单列表name_list,获取班级名单中学号id对应学生的信息。SQL代码select * from student_info t1where t1.name in (select name from name_list)SAS代码实现依据学号id对两个数据表进行排序,排序后才可以进行

2021-10-22 21:00:00 1428

原创 SAS EG ERROR:******引用越过文件结尾的页

SAS EG ERROR:******引用越过文件结尾的页引发错误的场景项目需要引用前期项目已经生成的SAS数据集,所以从另一个项目中下载下来,要上传到SAS服务器。但是多次上传都报这个错误,开始认为是由于缓存空间不足。后来反复溯源发现这个数据集共30G左右,但是本地存储空间只有10G,所以每次下载的数据集都是缺失的,导致了这个错误。解决办法扩充本地存储空间后再次下载上传在我的应用场景中,由于...

2021-09-29 09:39:10 314

原创 Anaconda、jupyter_notebook、pyecharts兼容问题的解决之一

Anaconda、jupyter_notebook、pyecharts兼容问题的解决之一版本Anaconda conda 4.8.3python 3.7.9Jupyter Anaconda自带pyecharts 1.9.0遇到的问题Jupyter notebook 在import pyechart 时提示错误:“jupyter notebook No module named 'pyecharts' ”解决办法网络查找了许多方法,尝试了最简单的就成功了。方法如下:conda d

2021-03-09 14:45:00 1093

原创 隐马尔科夫模型(HMM)与最大熵马尔科夫模型(MEMM)区别

HMM简述以骰子为例:骰子的种类数 ——> 隐含状态数量每种骰子是什么 ——> 转换概率掷骰子的结果 ——> 观察状态序列每次所掷的骰子 ——> 隐含状态序列HMM参数:隐含状态转移概率矩阵A观测状态转移概率矩阵B初始状态矩阵π\piπ隐含状态序列S观测状态序列O两个假设:齐次马尔科夫假设。又叫一阶马尔科夫假设,即任意时刻的状态只依赖前一时刻的状态,与其他时刻无关。观测独立性假设。任意时刻的观测只依赖于该时刻的状态,与其他状态无关。

2020-08-19 19:04:48 1154

原创 大数据学习——Day7(SPSS制作直方图、箱型图)

SPSS制作直方图、箱型图选中数据→\rightarrow→图形→\rightarrow→旧时对话框→\rightarrow→直方图→\rightarrow→设置→\rightarrow→确认选中数据→\rightarrow→图形→\rightarrow→旧时对话框→\rightarrow→箱型图→\rightarrow→设置→\rightarrow→...

2020-05-19 11:59:02 3230 1

原创 大数据学习——Day6(数据的分布和展示)

数据的分布和展示数据的分布数据的偏态数据的峰度数据的展示条形图扇形图折线图直方图盒式图Excel实现数据展示数据的分布数据大致形态、形态分析特征数据的偏态 - 数据不对称性分布——偏斜方向和程度(右(正)向偏态、左(负)向偏态) - 数据对称分布——平均数 = 中位数 = 众数 - 偏态系数SK ![偏态系数](https://img-blog.csdnimg.cn/20200519113336128.png?x-oss-process=image/watermark,type_ZmFuZ3p

2020-05-19 11:50:07 423

原创 大数据学习——Day5(软件计算描述性数据)

软件计算描述性数据Excel统计分析SPSS统计分析Excel统计分析文件→\rightarrow→选项→\rightarrow→加载项→\rightarrow→管理(Excel加载项)→\rightarrow→转到→\rightarrow→分析工具库数据→\rightarrow→数据分析→\rightarrow→描述统计→\rightarrow→设置统计参数→\rightarrow→确定SPSS统计分析设计数据视图→\rightarrow→导入变量→\rightarrow→选中统计区域→

2020-05-19 11:19:57 179

原创 大数据学习——Day4(数据分析基础、数据的趋势)

Day4(数据分析基础、数据的趋势)数据分析基础数据分析流程数据分析方法基础工具数据的趋势统计中的简单概念集中趋势离中趋势数据分析基础数据分析流程目的和内容:项目-整体框架、业务问题-分析对象数据收集:准确、有效(SQL语言)数据预处理:检验、清洗数据分析:方法、软件数据表现:表、图形数据报告:整体框架、结论、建议、解决方案数据分析方法预处理加工:描述性统计分析(趋势、分布);相关分析(单一、多个、相关系数)基于梳理统计:方差分析、回归分析、因子分析数据挖掘:- 聚类分析(层

2020-05-19 11:06:02 322

原创 大数据学习——Day03(数仓实战案例分析)

数仓建模范式建模维度建模- 星型建模- 雪花模型数仓分层ODS(Operation Data Store) --> 操作性数据DW(Data warehouse)–> 数据仓库DM(DataMart)–> 数据集市数据转换过程web data(原始数据)HDFS_ODS(数据操作层)HDFS_DWD(数据明细层,AVRO格式存储,MapReduce||hive)——ETL- AVRO格式动态扩展能力比较强HDFS_DWS(数据汇总层)——业务关联HD

2020-05-15 12:18:48 484

原创 大数据学习——Day02(数据仓库)

数据人对客观事物的观察在大脑中产生的一种记忆,如视频、图像、声音、文字等。数据的意义通过对一定量的数据的分析,所得出的规律可以指导实际活动,从而使实际活动更加容易。一般数据越多,规律越多,越准确。大数据计算机的出现,使对于数据的计算与存储不在局限于人脑和之前实体的记录方式(纸笔等),计算机可以存储更大量的数据。大数据的出现,与1类似,对于更更大量的数据,我们需要更快更准确的计算和更大的存储容量。定义: 当前的技术无法进行处理和分析的数据量。关键词: 服务器、服务器集群、分布式重点理

2020-05-14 11:02:03 210

原创 SQL基础学习笔记——Day01

SQL DML 和 DDLSQL 可以分为两个部分:数据操作语言 (DML) 和 数据定义语言 (DDL)。查询和更新指令构成了 SQL 的 DML 部分:SELECT - 从数据库表中获取数据UPDATE - 更新数据库表中的数据DELETE - 从数据库表中删除数据INSERT INTO - 向数据库表中插入数据SQL 的数据定义语言 (DDL) 部分使我们有能力创建或删除表格。我们也可以定义索引(键),规定表之间的链接,以及施加表间的约束。SQL 中最重要的 DDL 语句:CRE

2020-05-13 12:12:32 139

原创 大数据学习——Day01(基础常识和数仓基础)

大数据定义现有技术无法处理的数据。主要特点体量大要求处理速度快数据种类多发展历程数据–>存储、计算数据–>分布式计算大数据处理技术的发展历程谷歌提供了理论支撑:GFS、MapReduce和BigTable。hadoop:大数据处理平台,将分布式计算打包,降低了分布式编程的难度。数据仓库Hive数据仓库中的一个非常重要的技术,是数据仓库与hadoop紧密结合的标志。学习硬件需求服务器集群(vmware,购买云服务器集群,购买服务器)技术软件需求存储 :H

2020-05-13 12:01:52 200

原创 Python学习与使用过程中的问题小记

Python 踩坑记录函数坑Isalpha()中文会返回 True函数坑Isalpha()中文会返回 Trueb = '我 爱 你 中 国' a = b.split()print(a)if len(a)>0 and a[0].isalpha(): print(a[0])输出结果:['我', '爱', '你', '中', '国']我...

2019-12-31 09:07:06 141

原创 kera中使用keras.banked.ctc_decoder()导致内存不断增加的问题解决

kera中使用keras.banked.ctc_decoder()导致内存不断增加的问题解决遇到的问题在使用keras训练了模型后,使用模型进行测试,测试过程中发现随着测试数据的增加,测试速度不断降低,最后近乎停止。寻找问题根源通过在网上查找资料发现,此问题直接原因是调用keras.banked.ctc_decoder()或者keras.bankend.get_value()两个函数时,每...

2019-11-14 09:52:34 692 2

原创 keras添加BatchNormalization层

使用keras过程中的笔记记录keras添加BatchNormalization层CNN卷积网络中添加keras添加BatchNormalization层CNN卷积网络中添加// An highlighted blockvar foo = 'bar';

2019-10-23 15:19:46 5886

原创 Ubuntu vim基本插件配置 Python版

Ubuntu vim基本插件配置 Python版简介(一)准备(二)安装简介记录本人简单vim配置,防止以后重新配置时遗忘。(一)准备从github下载".vimrc"文件,链接 https://github.com/CoffreLv/My_vimrc.git;将目录中的"vimrc"移动到home目录并重命名为".vimrc";将".vimrc"中的作者头删除;(二)安装安...

2019-05-16 11:11:03 420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除