自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (6)
  • 收藏
  • 关注

原创 集成学习-理论概述

集成学习的一个综述,理论层面的对集成学习进行介绍

2023-01-18 18:07:07 3176

原创 随机变量之常见分布

0、概述统计分析是可以帮助人们认清、刻画不确定性的方法。总体是某一特定事物可能发生结果的集合, 随机变量(Random Variable) 则是一个不确定事件结果是数值函数(Function)。也就是说,把不确定事件的结果用数值来表述,即得到随机变量。随机变量包括离散型随机变量(Discrete Random Variable) 和 连续型随机变量(Continuous Radom Variable)。常用的离散型随机变量分布包括:0-1分布、二项分布、泊松分布和二项式分布等。常用的连续...

2022-04-24 17:32:20 14053

原创 PCA降维-原理(一)

一、PCA的数学原理PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。此部分内容的目的是介绍PCA的基本数学原理,帮助自己了解PCA的工作机制是什么。1、数据的向量表示及降维问题一般情况下,在数据挖掘和机器学习中,数据被表示为向量。例如某个租房网站全年的流量情况可以看成一组记录的集合,其中每一天的数据是一条记录,...

2022-04-20 16:42:16 5363

原创 数据处理之特征缩放与编码

目录0、前言1、特征缩放1.1 归一化1.1.1 Min-Max Scaling1.1.2 Z-Score Normalization1.1.3 归一化总结1.2 正则化1.3 归一化与正则化比较2、特征编码2.1 类别数据处理2.1.1 序号编码2.1.2 独热编码(one-hot)2.2 连续变量离散化2.2.1 二值化2.2.2 分桶2.2.3 聚类划分3、总结0、前言数据处理之特征缩放和特征编码,特征缩放主要是归一化

2022-02-28 11:46:10 2259

原创 数据预处理之重复值

目录0、前言1、重复值的识别1.1 DataFrame识别重复值-duplicated()1.2 Serier识别重复值-is_unique2、统计重复行的数量-duplicated().sum()3、重复值的处理0、前言在实际数据采集、数据处理和数据分析中,经常会遇到的一个问题就是:重复数据。重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响。比如,在逻辑回归分析中,重复数据会影响模型的拟合优度;数据分析中,重复数据会影响预测内容准确性。所以,处理重复值..

2022-01-28 14:11:46 7932 1

原创 异常检测的总结性介绍

1、异常检测1.1 什么是异常值在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预测问题中是不受开发者欢迎的,因为预测问题通产关注的是整体样本的性质,而异常点的生成机制与整体样本完全不一致,如果算法对异常点敏感,那么生成的模型并不能对整体样本有一个较好的表达,从...

2021-12-10 17:03:39 3583

原创 数据预处理之缺失值

目录0、前言1、缺失值的识别1.1 每个数据的识别-isnull()1.2 每列/行是否包含缺失值-isnull.any()/isnull.all()1.3 缺失值的个数-isnull().sum()1.4 检查所有的数据-data.info()2、缺失值的处理2.1 删除法-df.dropna()2.2 填补法2.2.1 替换法2.2.2 插值法2.2.3 预测法0、前言缺失值指的是由于人为或机器等原因导致数据记录的丢失或隐瞒,缺失值的存在一..

2021-09-24 13:47:59 3330 2

原创 Python常用可视化实例集

目录1、介绍2、单变量可视化2.1 直方图@数值特征2.1.1 DataFrame的hist()方法2.1.2 seaborn的distploy()实现2.1.3 matplotlib的dist()方法2.2 密度图@数值特征2.2.1 DataFrame的plot()实现2.2.2 seaborn的distploy()实现2.3 箱型图@数值特征-sns.boxplot()​2.4 提琴形图@数值特征-sns.violinplot()2.5 条形图...

2021-09-22 11:14:15 3623 1

原创 pandas实用方法

pandas实用方法目录0、查看Pandas版本信息1、DataFrame文件操作1.1 CSV文件读取数据-read_csv()1.2CSV文件写入数据-to_csv()1.3 EXCEL文件读取数据-read_excel()1.4 EXCEL文件写入数据-to_excel()​2、查看前5行或后5行数据2.1 查看前5行数据-head()2.2 查看后3行数据-tail()3、查看数据维度、特征名称和特征类型3.1 查看数据维度-shape3.

2021-08-24 13:41:30 1372 1

原创 neo4j安装及学习

图形数据库(Graph Database)是NoSQL数据库家族中特殊的存在,用于存储丰富的关系数据。Neo4j是一个高性能的NOSQL图形数据库,也是目前最流行的图形数据库,支持完整的事务,它将结构化数据存储在网络上而不是表中。在属性图中,图是由顶点(Vertex),边(Edge)和属性(Property)组成的,顶点和边都可以设置属性,顶点也称作节点,边也称作关系,每个节点和关系都可以由一个或...

2019-08-07 16:00:53 1327

转载 记录下os.path.dirname(__file__)使用

os.path.dirname(__file__)使用该测试脚本所在的位置:D:\第1层\第2层\第3层\第4层\第5层\test11.pytest11.py[python] view plain copyprint?import os  #该文件所在位置:D:\第1层\第2层\第3层\第4层\第5层\test11.py    path1 =

2017-11-20 14:23:38 1594

转载 【机器学习实战-python3】树回归

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action本篇博客部分参考Forec blog一、数据建模问题 前面介绍了贪心算法的决策树,构建算法是ID3,每次选取当前最佳特征来分割数据,并且按照这个特征的所有可能取值来划分,一旦切分完成,这个特征在之后的执行过程中不会再有任何用处。这种方法切分过于迅速,并且需要将连续型数据离散化后

2017-11-15 17:01:29 1398

转载 python-numpy中nonzero()的用法

当使用布尔数组直接作为下标对象或者元组下标对象中有布尔数组时,都相当于用nonzero()将布尔数组转换成一组整数数组,然后使用整数数组进行下标运算。nonzeros(a)返回数组a中值不为零的元素的下标,它的返回值是一个长度为a.ndim(数组a的轴数)的元组,元组的每个元素都是一个整数数组,其值为非零元素的下标在对应轴上的值。例如对于一维布尔数组b1,nonzero(b1)所得到的是一

2017-11-14 18:01:21 1199

原创 软件推荐

平时喜欢的一些软件,记下来既方便自己以后使用,也想把好东西与大家一起共享!

2017-10-22 20:51:11 1190

原创 技术点滴

在做项目过程中的一些小小收获,灵活运用书本所学!

2017-10-20 17:33:54 1028

原创 DataFrame双重索引取值

1、一些课本是见的是Series的多重索引,获取第二个索引值内容:2、当变为DataFrame时,则会报错3、解决方法:

2017-10-16 18:05:47 14988 1

转载 pycharm修改快捷键

pycharm修改快捷键1、keymap2、找到需要修改的功能3、鼠标右键选择——选择“add keyboard shortcut”4、直接按需要设置的快捷键位,如F65、确定

2017-10-13 18:35:33 24701

原创 自定义模块

自己写一些比较常用的函数,以备后续调用

2017-10-13 11:04:44 1211

原创 利用python进行数据分析 移动数据系数与线性回归(P366)

import numpy as npimport statsmodels.api as smimport statsmodels.formula.api as smfaapl = web.get_data_yahoo('AAPL', '2000-01-01')['Adj Close']msft = web.get_data_yahoo('MSFT', '2000-01-01')

2017-08-28 18:32:52 1266

原创 常用快捷键

1、ctr + 鼠标滚动条    放大浏览器字体2、ctr + F 文档搜索

2017-08-25 14:20:50 902

转载 jupyter notebook的安装与使用

最近由于项目需要,开始学习Python,然后发现一个非常有用的python交互式编辑器,非常容易上手而且非常有用和实在,本博文是对学习jupyter notebook的一个汇总和记录,与大家一起分享!下面的内容是针对ubuntu 系统的,当然,jupyter notebook在windows也是支持的。一、jupyter notebook是什么官网的介绍是:Jupyter Notebo

2017-08-10 16:33:20 1715

原创 python基础技能

python学习过程中碰到的一些小问题汇总。。。

2017-08-08 09:42:45 323

转载 matplotlib各部件详解

首先一幅Matplotlib的图像组成部分介绍。在matplotlib中,整个图像为一个Figure对象。在Figure对象中可以包含一个或者多个Axes对象。每个Axes(ax)对象都是一个拥有自己坐标系统的绘图区域。所属关系如下:下面以一个直线图来详解图像内部各个组件内容:其中:title为图像标题,Axis为坐标轴, Label为坐标轴标注,Tick为刻度线,Tick L

2017-08-03 18:11:34 677

转载 翻转(reverse)字符串(string)的所有方法 详解

翻转(reverse)字符串(string)的所有方法 详解版权所有, 禁止转载, 如有需要, 请站内联系.本文地址: http://blog.csdn.NET/caroline_wendy/article/details/23438739Python翻转字符串(reverse string), 一共包含5种方法, 其中第一种最简单, 即步长为-1, 输出字

2017-08-02 09:23:28 6621

原创 Python·Jupyter Notebook各种使用方法

熟悉Jupyter环境

2017-07-28 11:31:58 36983 1

原创 python中sqlite3对数据库的增删改查

Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者制作有数据存储需求的工具。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。Python标准库中的sqlite3提供该数据库的接口。

2017-07-24 17:08:42 39973 5

原创 windows命令行下的常见命令

1、DOS命令DOS常用命令详解  dir 列文件名 deltree 删除目录树 cls 清屏 cd 改变当前目录。  copy 拷贝文件 diskcopy 复制磁盘 del 删除文件 format 格式化磁盘。  edit 文本编辑 mem 查看内存状况 md 建立子目录 move 移动文件、改目录名。  more 分屏显示 type 显示文件内容 rd 删除目录。  s

2017-07-24 13:33:42 907

转载 python3 中的 map,reduce,filter函数

转载自http://blog.csdn.net/frone/article/details/45561029

2017-07-24 10:08:28 814

原创 python3任意位数的磁力数求法

磁力数的求法

2017-07-21 09:47:09 363

原创 斐波那契数列求解python3

1、基本方法def Fib(n):if n return nelse:return Fib(n-1) + Fib(n - 2)x = eval(input("Please input a  num:"))if x print("Please input a right num!")else:for i in range(x):print(Fib(i))

2017-07-14 16:58:37 1408

原创 获取打开网页的cookie

1、打开所需的网页2、右键,点击检查3、点击network  下面的all4、在控制台开着的同时,在左边网页操作5、选中第一条,Header6、headers这个页面,找到request header,里面有cookie

2017-07-14 13:48:44 16322 1

原创 python3 求4位磁力数

任意给一个数字不全相同的n位整数,经过有限次“重排求差”操作(“重排求差”操作即把组成该数的数字重排后得到的最大数减去重排后得到的最小数),最终的运算结果总会得到同一个或同一些n位整数,这类整数好像所有n位整数的核心一样,具有很强的磁性,能够吸引其它n位整数,故称这类整数为磁力数

2017-07-13 09:17:25 554

原创 git初学

代码仓库简单命令学习。。。

2017-07-12 15:15:10 248

原创 python基础之杂文

1.容器类数据结构1.1 列表List(1)写在[ ]内用逗号分开的元素列表,python中存放有序对象的容器。list中的元素类型可以不同,可以存放任何数据类型:数值、布尔型、字符串等。(2)类似于字符串,可以被索引和切片,list切片后返回一个所需元素的新list,切片格式:变量[头下标:尾下标](3) + 是列表连接运算符     * 是重复操作(4)list内置了app

2017-07-11 16:59:30 267

原创 python专题练习

一直看书,总感觉欠缺点什么,所以找了些习题来练练手。。。

2017-07-11 14:13:32 392 1

原创 python进阶笔记

主要内容:函数式编程;模块;面向对象编程;定制类

2017-07-06 17:42:22 4450

原创 “笨办法”学python笔记

python学习摸索中。。。

2017-07-06 16:24:23 372

原创 windows中命令行中常用命令汇总

命令行常用命令

2017-07-04 18:19:57 546

原创 Python入门笔记

菜鸟之薪路

2017-07-04 17:36:07 254

原创 基础技能

关于新装电脑增加我的电脑图标,磁盘分盘的步骤。。。

2017-07-04 13:04:45 208

PMP考试资料精讲知识点总结

PMP考试资料精讲知识点总结

2022-01-28

Scala(中文完整版).pdf

scala学习,提供全中文的scala的完整版,帮助大家一起学习一起进步

2019-09-11

Tensorflow 实战Google深度学习框架

Tensorflow 实战Google深度学习框架的完整电子版,很好的一本书,别人推荐的,然后找了各种资源,好不容易下到的,希望可以与大家一起学习。

2017-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除