自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 图解HTTP

第一章 了解Web及网络基础HTTP是TCP/IP的一个子集。TCP/IPTCP/IP:计算机和网络设备进行通信,双方必须基于相同的方法。分层:好处,解耦合,修改时只需修改相关层即可。应用层:向用户提供应用服务时通信的活动。HTTP属于这一层。传输层:TCP网络层:IP链路层IP协议(传输)IP的作用是将各种数据包传输给对方。两个重要条件是IP地址(节点被分配的地址,可变)和...

2019-10-10 18:31:50 197

原创 利用python进行数据分析

第一章 准备工作第二章 引言第三章 ipython第四章 numpy基础和矢量计算第五章 pandas 入门第六章 数据加载、储存和文件格式第七章 数据规整化:清理、转换、合并、重塑第八章 绘图和可视化第九章 数据聚合与分组计算第十章 时间序列第十一章 金融和经济数据应用...

2019-09-03 13:46:20 474

原创 kaggle比赛流程

对问题的认识搞清楚有哪些特征,各自代表的意义是什么。(看特征说明结合head)对将要预测的连续变量做一个describe,有一个直观的认识对数据的认识**首先,**依据直觉将数值类特征和类型类特征分别进行绘图处理,查看他们与标签的关系。数值类特征,通过绘制散点图观察特征与标签的关系,来估计特征的重要程度。如var = 'GrLivArea'data = pd.concat([df_...

2019-09-03 13:45:54 554

原创 python机器学习第二版(读书笔记)

第一章 赋予计算机从数据中学习的能力第二章 训练简单的机器学习分类方法第三章第四章第五章第六章第八章第九章第十章第十一章第十二章第十三章第十四章第十五章第十六章...

2019-09-03 13:45:30 830

原创 特征工程杂项

数学知识卡方检验:比较理论频数与实际频数的吻合程度。其中,A为实际值,T为理论值。x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)差异程度与理论值的相对大小这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。...

2019-09-03 13:44:53 172

原创 python大战机器学习(读书笔记)

第一章 线性模型逻辑回归与线性回归理论回归分析:回归分析的本质是函数估计的问题(包括参数估计和非参数估计),依据因变量的联系或离散分为回归或者分类,是一种有监督学习方法。广义线性模型:拟合的是关于y的可导函数,如逻辑回归,拟合的就是y的ln函数。线性回归求解的两个表示:用最小化均方误差和基于高斯分布的极大似然估计求解线性回归,其结果是一样的(在线性回归中假设Y|X服从高斯分布,而逻辑回归...

2019-09-03 13:44:28 5131 1

原创 java语言程序设计(梁勇)

第一章 计算机、程序和java概述时钟速度越快,给点单位时间内处理的命令就越多。汇编器:将汇编语言转换为机器语言源程序(源代码):由高级语言编写的程序又分编译器和解释器。java是编译语言操作系统(os):是运行在计算机上最重要的程序,用来管理和控制计算机的活动。其作用为:1、控制和监视系统的活动;2、分配和调配系统资源;3、调度操作,其中包括多进程、多线程、多处理多进程:计算机可以...

2019-09-03 13:43:51 8850

原创 深度学习

第六章 深度前馈网络前馈网络是基石,卷积神经网络以此为基础。理解:从线性模型开始,进行扩展,克服其局限性。如挑选一个映射,将映射后的新变量作为新的特征,再做线性变换。深度学习的策略:学习此映射。神经网络与线性模型的区别:神经网络的非线性使得代价函数变的非凸,因此神经网络的优化通常是迭代的、基于梯度的优化。(不可像逻辑回归及svm那样实现全局收敛)前馈神经网络中初始参数的选取是十分重要的,...

2019-09-03 13:43:15 134

转载 特征工程概略

并非原创,网上整理特征工程简明图如上。特征处理是特征工程的核心部分,包括数据预处理、特征选择、降维等,通过sklearn的processing库来实现。数据预处理不属于同一量纲:无量纲化信息冗余:进行区间离散定性特征不能直接利用:采用哑编码存在缺失值:对缺失值进行补充信息利用率低:对定量变量进行多项式化,增加新的特征,可以达到非线性的结果。无量纲化:即使不同规格的数据转换到同一...

2019-05-28 15:40:30 162

原创 python语言程序设计(梁勇)

第一章 计算机、程序和Python概述绘制文本字符串:turtle第二章 基本程序设计第三章 数学函数、字符串和对象第四章 选择第五章 循环第六章 函数第七章 对象和类第八章 更多字符串和方法第九章 使用 Tkinter 进行 GUI程序设计第十章 列表第十一章 多维列表第十二章 继承和多态第十三章 文件和异常处理第十四章 元组、集合和字典第十五章 递归...

2019-05-03 21:56:47 13910 4

原创 c++程序设计读书笔记(梁勇版)

第一部分 程序设计基础第一章 计算机、程序和C++语言简介第二章 基本数据类型和计算第三章 分支语句第四章 循环第五章 函数第六章 数组第七章 指针和C字符串第八章 递归第二部分 面向对象程序设计第九章 对象和类第十章 对象和类的更多内容第十一章 继承和多态第十二章 文件输入和输出第十三章 运算符重载第十四章 异常处理第三部分 数据结构第十五章 模板第十六章 ...

2019-04-29 19:35:04 2263 1

原创 明解c语言(读书笔记)

第一章 初识c语言源程序:由人编写出的字符序列。源文件:保存源程序的文件,以.c保存翻译:将源程序转化为可执行序列,编译器和运行环境不同时,翻译的步骤和程序执行的方法也不同。注释:/与/之间是注释格式化输出函数:printf(f是format的缩写)printf("%d",a),%f 显示浮点数变量:声明、赋值格式化输入函数:scanf,scanf("%d",&a)顺序输出...

2019-04-13 21:16:21 734

原创 计算机科学导论(读书笔记)

第一章图灵机:一种可以编程的数据处理器(图灵机是一种理想模型,它可以依据程序进行任何计算)冯诺依曼:提出程序也可以存储在计算机里(输入输出,控制单元,存储器,算术逻辑)类:可以理解为自己创造指令,进行组合。算法:解决问题的方法与步骤软件工程:结构化程序的设计和编写(程序设计中遵循的原理和规则)操作系统:一些对所有程序都适用的指令数字系统:不同的符号来代替指向表示同一个数字第二章略...

2019-04-10 09:06:13 2576

原创 pandas的DataFrame

numpy# 查看数组类型np.dtype# 二维数组建立a_np=np.array([[1,3,5],[5,3,5],[44,35,55]])# axis=0按列统计,axis=1按行统计以numpy为基础的pandas(建立在数组之上).series#创建seriesimport pandas as pda_series=pd.Series(['a','v','d'])a...

2019-03-21 15:37:50 181

原创 数据预处理

缺失值的处理方法# 数值型数据(平均值)df[' ']=df[' '].fillna(de[''].mean())# 类别型变量(缺失值较少,用众数填补)full_df[' '].mode()full_df[' ']=full_df[' '].fillna('S')# 字符型变量(缺失值较多,'Unknown'填补)full_df[' ']=full_df[' '].filln...

2019-03-21 13:20:05 192

原创 kaggle入门之data vislization

直方图的绘制# 直接绘制reviews['province'].value_counts().head(10).plot.bar()# 百分比图的绘制(reviews['province'].value_counts().head(10) / len(reviews)).plot.bar()# 一种与上述方法横坐标不同的直方图reviews['points'].value_counts...

2019-03-19 19:26:21 288

原创 kaggle入门之pandas

创建 读写# 创建dataframe格式数据fruits = pd.DataFrame([[30,21]],columns=['Apples','Bananas'])fruit_sales = pd.DataFrame([[35,21],[41,34]],columns=['Apples','Bananas'],index=['2017 Sales','2018 Sales'])# 创建S...

2019-03-14 19:06:36 374

原创 python异常处理

异常广义上的错误分为错误和异常错误指的是可以人为避免异常是指在语法逻辑正确的前提下,出现的问题在python里,异常是一个类,可以处理和使用异常的分类AssertError 断言语句(assert)失败AttributeError 尝试访问未知的对象属性EOFError 用户输入文件末尾标志EOF(Ctrl+d)FloatingPointError 浮点计算错误Gener...

2019-03-04 15:48:23 182

原创 python模块和包的区别与联系及使用方法

区别使用方法

2019-03-03 22:08:12 581

原创 Python知识总结

2019-03-03 20:18:05 204

原创 Kaggle入门课程之Machine Learning

第一讲

2019-03-03 20:07:55 535

原创 Kaggle入门课程之Python

第0讲在kaggle中,是独立包含内核的,因此我们并不需要格外的编辑器来对我们所编写的语言进行编译.直接在kaggle内核这点击ctrl+回车运行即可.内核的简单功能介绍第一讲语法赋值运算变量数字第二讲...

2019-03-03 13:02:04 1006

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除