自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 高级实训第八周周报

本周开始了新的CCF比赛,首先了解各个数据集的基本信息,进行简单的数据预处理和特征工程操作,并直接使用上次最终效果最好的XGBoost模型跑出一个结果。首先,训练集需要带标签的数据,使用数据集7中的14865个id作为键值与其他数据集做左连接(类似数据库操作),仅包含标签的id对应的条目保留。经观察,仅数据集1数据特征较全面且缺失少,因此目前暂时只用到数据集1,训练集为数据集7与数据集1以id为key左连接的结果(使用panda中的merge函数),测试集为数据集8与数据集1以id为key左连接的结果,

2020-11-17 15:56:36 271 1

原创 高级实训第七周周报

概述 本周是高级实训第一个项目的最后一周,根据上次课上讨论的内容进行了一些微调和改进,并结合前几次周报简要梳理了整个比赛的完成情况。数据预处理 首先需要对数据集中各个特征的意义、类型、取值分布有一个大致的了解,并对数据进行预处理,解决缺失、噪声、冗余、不一致等问题,使数据集能够更好地被模型利用。不同模型对这些数据集的缺陷的敏感度不同,其处理方式也可能有所不同。 上两图是训练集、测试集数据的概况,可以看到除n系列匿名特征外,缺失量并不是很大。对缺失数据的...

2020-11-11 10:32:33 522

原创 高级实训第六周周报

如上周周报所述,本周在之前的数据与处理和特征工程的基础上,用更复杂的模型代替KNN和决策树,并观察分类性能的提升。主要选用的是XGBoost和随机森林两个模型,理论部分在上周的周报中有提及,本次主要说明实际调参情况及结果分析。使用XGBoost模型获得的最好结果如下(相比两周前用决策树做到的0.6978有明显提升):对XGBoost,我主要调整了一下4个参数:max_depth=6, 类似决策树的最大深度,过大易过拟合,过少易欠拟合,一般为5-10learning_rate=0.1, 学习率

2020-11-03 09:29:57 387

原创 高级实训第五周周报

上周基本完成了数据预处理与特征选择的部分,并使用KNN和决策树这两个简单的模型达到了接近0.7的评分。本周主要从上次课提及的一些内容出发,学习一些更复杂的模型。随机森林随机森林是Bagging算法的一个特例,基分类器全部采用决策树。它随机选择一些特征并构建决策树,通过投票等策略综合随机森林中所有树对样本的预测结果,从而得到随机森林的预测结果。这是一种通过引入随机性并综合大量结果来降低方差,缓解单一决策树的过拟合问题的策略。XGBoostXGBoost是GBDT(梯度提升决策树)的..

2020-10-27 11:02:55 453 1

原创 高级实训第四周周报

本周工作本周主要还是数据预处理与特征选择部分,相比之前简单地用平均值填充数值类数据,用众数填充类别类数据并使用全部特征,我对数据分门别类进行了更细致的处理,并舍弃了一些不必要的或暂时较难利用的特征。首先,除了object类的数据为类别类数据外,有些数值类数据的取值个数都比较有限,且取值集中在几个数值上(例如n0),此时采用均值填充缺失值可能并不是一个很好的选择,可以把它当作类型属性。对一些80万条目中只有几个的取值,可以把它们合并为一类(相当于others),这样可以有效减少取值数(同时对其意.

2020-10-20 18:58:26 328

原创 高级实训第三周周报

上周主要讲了数据与处理与特征工程的问题,由于上次对数据的预处理比较粗糙,只对缺失数据做了简单的填充,没有对特征做筛选或处理,本周开始主要根据上周讲的内容完善这一部分,并保持原训练模型不变,观察数据与处理带来的效果的提升。首先一个之前没有考虑到的因素是噪声以及数据的尺度,这主要是针对部分数值类属性,我主要根据数值大小的分布,找到一个上、下阈值,将超出范围的数值设为等于阈值,以消除部分离群点,之后将属性normalize,避免某些属性取值普遍过大而对模型产生远超其他属性的影响。上次周报中有提到除KNN外

2020-10-12 20:19:08 514

原创 高级实训第二周周报

实践: 对部分有缺失值的特征做了简单的填充处理(数值类用均值替代,类别类用众数替代),重点选取部分与贷款数额、评级、收入与偿还能力相关的属性,使用KNN模型进行训练(因其较简单,运行速度较快)。由于测试集不含标签,我使用sklearn将原训练集随机划分为训练集、测试集,其中测试集占比为0.3,即240000条,在测试集上准确率约为0.79,赛事评分如下:理论: 阅读了论坛中关于数据分析与特征工程的内容(包括可视化、空白值填充、异常值处理、特征选择等),下一步计划对异常值进行...

2020-10-05 17:45:08 552

原创 IT项目管理期末个人总结——管理方法与经验

个人角色小组共有项目经理(组长)1人,产品经理(管理组)3人,技术人员(开发组)9人。我是开发组的一名成员,主要负责大作业四、五中产品的开发及测试,但我们组成员在前期的作业中也有部分参与。本报告简要回顾我在整个项目中的参与情况,详细描述我的开发任务(技术报告),并讨论一些心得体会。项目参与过程作业一:参与第一次小组会议,共同确定了要实现的产品及其主要功能,明确了小组内分工。 作业二:未参与。 作业三:参与项目启动会议,根据会议分工,独立撰写项目管理计划,个人工作最终由项目经理整合到团队.

2020-08-01 16:02:44 1149

原创 IT项目管理——项目质量管理

本篇主要完成教材《IT项目管理》中第8章项目质量管理中的习题1、2、3。首先,对于聘用新教师来教授项目管理课程,我根据自己的理解指定了如下质量标准清单: 质量标准 详细说明 1.资质标准 1.1 年龄 20-45岁 1.2 教育背景 本科及以上学历,计算机、管理学相关专业 1.3 资格认证 拥有教师资格.

2020-07-29 11:39:36 478

原创 IT项目管理——项目成本管理

本篇主要完成教材《IT项目管理》中第7章项目成本管理中的习题1、2、3。首先,参照教材图7-2的Surveyor Pro项目成本估计,结合题目给出的条件,给出成本模型如下表所示: WBS条目 数量或小时数 单位小时成本(美元) 子层总和(美元) WBS第2层总和(美元) 占总和的% 1.项目管理 ...

2020-07-22 09:15:07 864

原创 IT项目管理——项目时间管理

本篇主要完成教材《IT项目管理》中第6章项目时间管理中的习题6、7,并结合网上资料简要讨论“看板”在软件项目中的使用。习题6解答如下:习题7中表格信息与Project中的输入项略有不同,为方便起见首先画出双代号网络图如下:据此输入各任务的名称、工期时长、前置任务信息,默认第一个任务的开始时间为今天:之后由Project生成网络图、任务进度表分别如下两图所示: 关键路径为A-D-F-G-I-K-L,长度为10+4+6+4+6+8+10 = 48,...

2020-07-15 11:01:40 1239

原创 IT项目管理——收集需求与定义范围

本篇主要结合上次作业中制作一个为增进班级间了解的年级公众号的项目,讨论收集需求的方法,并为作业二中我自己构思的校园线上点餐小程序构建WBS,并绘制甘特图和思维导图。在IT项目管理中,需求指根据特定协议或其他强制性规范,产品、服务、成果必须具备的条件或能力,一般可分为业务需求、相关方需求、解决方案需求(包含功能性需求与非功能性需求)、过度和就绪需求、项目需求和质量需求这几类。收集需求是为实现项目目标而识别、记录并协调管理各相关方的需要的过程,通常包含数据收集、文件分析、决策、需求呈现等类别,每个类别又有一

2020-06-17 11:34:55 2276

原创 IT项目管理——分析与工具

本篇首先讨论一个与同学合作完成一个促进班级间互动交流的微信公众号的项目,利用WBS和甘特图两个工具指定项目章程和项目管理计划,以指导项目的实施和运营。接下来用思维导图描述上述项目策划研讨会的会议记录,并对该记录方法的优缺点进行评价。WBS(工作分解结构)将项目按工作阶段可交付成果分解成较小的、更易于管理的组成部分。我将本项目分为项目范围定义、分工与实施、试运行三个大部分。项目范围定义分为确定项目范围和准备资源两部分,即需要做哪些任务、为完成这些任务需要准备哪些资源。做好了范围确定和资源准备后,即可.

2020-06-03 15:54:25 319

原创 IT项目管理——项目管理过程与领域知识及其关系

本篇主要讨论项目管理过程与领域知识及其关系,首先使用知识域*过程矩阵对比分析CMMI项目管理过程-项目计划与项目规划过程组,然后对课上给出的JWD案例构建项目准备过程组。 参考PMBOK6,十大知识领域与四个过程组构成的矩阵如下表所示: 知识领域 项目管理过程组 项目规划过程组 项目执行过程组 项目监控过程组 项目收尾过程组 项目整合管理 ...

2020-05-20 22:40:59 728

原创 IT项目管理——一个校园项目构想及其可行性分析

本篇主要讨论一个校园项目的设想,并参考业务、组织、技术三维模型来系统化地对其做可行性分析。在学校中,每天中午、晚上时段都是食堂就餐的高峰期,很多时候需要在窗口前排长队,排到之后点好,再等待现做现取。这样的流程其实效率并不高,点餐者需要等待很久才能将自己的需求传达,而如果将这些菜品搬到线上,方便提前点餐,就可大大降低等待时间,缓解食堂拥堵,提高效率。系统地分析该“点餐程序”的可行性,需要对其...

2020-05-05 18:03:36 1571 1

原创 IT项目管理——几个基本概念的讨论

本篇主要讨论projects(项目)、programs(项目集)、portfolio(项目组合)三者间的关系和其对企业的贡献,以及operations(运营)与OPM(组织级项目管理)的关系。一、项目、项目集、项目组合三者间的关系和其对企业的贡献从定义上,projects(项目)指为创造独特的产品、服务或成果而进行的临时性工作;programs(项目集)指一组相互关联且协调管理的项目...

2020-05-02 18:40:38 594

原创 C语言贪吃蛇的完善

在上次尝试建立了一个贪吃蛇游戏的雏形(蛇的长度固定、没有金币吃,其余与正常规则相同)后,今天打算对其进行修改以实现上述两项功能。 下面是上次的源代码,经过分析我发现,只需增加一个在空白位置随机产生金币的函数,并修改move函数以使蛇吃了金币后长度加一: 首先,我们需要增加一个在空白位置随机产生金币的函数food。先定义foodx 、foody以表示金币的坐标,然后使x、y是边框范围内随机产生

2017-12-25 23:01:45 549

原创 用C语言写贪吃蛇游戏的初探

贪吃蛇是一款经典的游戏,其基本玩法是通过键盘输入控制蛇上下左右四个方向移动,在撞到墙或自身时死亡。由于是初次尝试,先不考虑食物的产生。吃食物并身体延长这两个问题。 首先,我们先要有个框架,即实现上上述功能要有哪些函数。首先,先要表示边框(蛇的移动范围)及蛇,然后要设定一个死亡的条件,在没有死亡的条件下,读入指令控制蛇的移动,并输出相应图像。每次输出完要清空屏幕再输出下一次的图像。 根据以上这些功

2017-12-25 20:01:47 747

原创 IT与风投

飞速发展的IT行业是创新最多、最快的行业之一。在这个行业,时时有带着idea和梦想的年轻人,需要一笔资金来创造一番他们的事业。然而这种投资不同于投资基金和股票,由于公司尚未成型或处于萌芽阶段,不确定因素很多,失败的可能性极大,多数情况下,钱是白投了,不但没有收益还搭进了本钱,而少数情况下,如果公司办的很成功,发展的很快,那么投资者可能获得几十甚至成百上千倍的收益,因此这类投资是高风险的,被称作风险投

2017-12-17 18:54:22 334

原创 Python 语言历史简介

Python是一种解释型的、面向对象的、带有动态语义的高级编程语言。它由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。 Python的发明者曾参与ABC语言的开发,这种语言与当时主流的语言有较大的不同,它隐藏了较多底层的东西,力求使编程更简单,它的语法也更接近自然语言,而非机器语言。这种做法的代价是程序的效率的降低,即完成同一件事,使用ABC语言对电脑性

2017-12-15 20:15:36 7555

原创 IT伦理——AI技术可能的伦理冲击

AI是时下最为热门的话题之一,而随着阿法狗全面战胜人类围棋手等标志性事件,人类越来越深刻地认识到AI的强大能力,进而也就产生了AI是否会发展到威胁人类的生存这一质疑。而除了对未来的担忧,现阶段已产生或投入使用的人工智能产品也不乏争议。 现阶段,已投入使用的都是弱人工智能,也就是说并不真正具备独立的感知、思考能力和自我意识。此类产品只能模仿人类感官或逻辑推理、思考的一部分,并借助大量的学习材料及

2017-12-13 08:58:32 1719

原创 自顶向下,逐步求精

在工程领域,尤其是信息科技领域,满足实际需求、解决实际问题是重中之重。有一种名叫“Top down design”的解决问题的方法,应用很广泛,下面我来简单的介绍一下这种方法。总的来说,自顶向下就是先不纠结于细节,以整体的眼光看问题,明确这个问题要我们做什么,最好抽象成输入什么,输出什么。然后采取分而制之的方法,将问题分为相对容易解决的子问题加以解决。划分主要有两个维度:一是按功能划分,将问题分为

2017-11-30 11:58:38 203

原创 我的电路初实践

在学习了门电路的一些基本知识后,我通过搭建模拟实际电路连接来完成了一些简单的事情,下面介绍三个电路连接(附图)一、非门 完成非门仅需要一个晶体管,它是最简单、最基本的门电路之一,其真值表为 input output 0 1 1 0 二、验证(A + B) * C = A * B + A * C 这里待验证的等式是布尔表示

2017-11-19 21:25:41 236

原创 阅读收获——IT产业的六个规律

近期阅读了吴军博士的《浪潮之巅》,其中谈到的IT领域的规律给了我很大启发,下面我来分享给大家:第一,是很多人熟知的摩尔定律,它由英特尔公司创始人戈登·摩尔提出,“在至少10年内,集成电路的集成度会每两年翻一番。后来,大家把这个时间缩短到18个月。这与IT产品的特点有关:IT产品的原材料成本通常很低,而研发成本及设备成本占了大头。一旦新的一代产品被研发出来,则可以以很小的成本大批量生产,这个成本可能并

2017-11-17 10:48:11 277

原创 技术科普——显卡

谈及显卡,我的最初印象是“与呈像有关、对玩游戏、看电影很重要”。而在课上学习了色彩表示的基本原理后,我对这一计算机中的重要硬件产生了兴趣,通过查阅一些资料,简单地列出了显卡的一些基本分类、结构、工作原理及参数,供像我一样的小白参考。 首先,让我们来看一下显卡的定义:显卡全称显示接口卡,又称显示适配器,是计算机最基本配置、最重要的配件之一。显卡作为电脑主机里的一个重要组成部分,是电脑进行数模信号转

2017-11-16 09:35:02 1767

原创 使用Construct2制作小游戏的心得

Construct2是一款简便的制作游戏的工具,给那些有想法但代码能力有限的爱好者提供了一个很好的机会。这次我就以自己制作的第一个游戏——根据官网教程做的打怪兽游戏为例,来谈谈如何使用construct 2制作游戏。 首先,让我们来看看这个游戏的功能:游戏中有一个主角,数个怪兽,游戏开始后,怪兽随机移动,而主角持枪射击怪兽,当怪兽血量为零时死亡。主角的枪的射击方向随鼠标的移动而移动。每杀死一个怪

2017-11-15 08:25:03 2129

原创 关于比尔盖茨的几点思考

比尔盖茨,相信是一个大家耳熟能详的名字,比尔盖茨身上的标签有很多,比如世界首富、企业家、微软创始人、软件工程师、慈善家等。下面我们来简短地回顾一次盖茨的人生经历,并从中发现一些引导他成功的要素。比尔盖茨,1955年生,13岁开始计算机编程设计 ,18岁考入哈佛大学,一年后从哈佛退学,1975年与好友保罗·艾伦一起创办了微软公司 ,比尔盖茨担任微软公司董事长、CEO和首席软件设计师。 比尔·盖茨

2017-10-19 16:42:10 1283

原创 封闭与开放——关于苹果的兴与衰的思考

本文透过对苹果的发展、衰落与重新崛起的历史,思考封闭与开放的系统是否决定企业的成败,以及未来还可能有哪些决定企业成败的因素

2017-09-28 10:53:17 800

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除