自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 pandas学习

# pandas学习# 1:生成模拟数据集import pandas as pdimport numpy as npcompany=["A","B","C","D"]data=pd.DataFrame( { "company":[company[x] for x in np.random.randint(0,len(company),10)], "salary" :np.random.randint(5,50,10), "age"

2021-03-23 14:49:36 172 1

原创 手写数字识别

from sklearn.decomposition import PCAfrom sklearn.datasets import fetch_lfw_peoplefrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport pandas as pdimport nu

2020-08-18 16:10:01 338

原创 sklearn中的降维算法PCA和SVD

sklearn中的降维算法PCA和SVDimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.decomposition import PCA1:概述1.1.1 什么叫维度数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。。索引以外的数据,不分行列的叫一维(此时

2020-08-18 16:06:09 532

原创 python 运算符

1算术运算符a=21b=10c=0#加减乘除a+ba-ba*ba/b2.1#取余取整a%ba//b22 比较运算符# 是否相等,返回得为boola==ba!=bTrue# 大小比较a>ba>=ba<ba<=bFalse3 赋值运算符a+=b#等于a=a+b,其它类似a4 逻辑运算符a=20b=10a and b10a or b20not (a and b)Fal

2020-08-18 10:56:14 135

原创 数据类型与数据结构

1.变量1.1 整数和浮点数x=5# x 是对象名字,5是value,即对象值,常见值得类型为整数,浮点数,字符串,布尔值等。#输出函数print,获取当前变量取值类型为type()print(type(x))# 整数(int) - 通常被称为是整型或整数,是正或负整数,不带小数点。<class 'int'>f=5.1# 浮点型(floating point real values) - 浮点型由整数部分与小数部分组成,浮点型也可以使用科学计数法表示(2.5e2 = 2

2020-08-18 09:19:03 252

原创 sklearn 特征工程feature_selection

特征工程feature_selection特征提取,特征创造,特征选择特征选择-过滤法,嵌入法,包装法,和降维算法。import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifier as rfcfrom sklearn.model_selection import cross_val_scoredata=pd.read_csv("digit recognizor.csv")

2020-08-14 15:29:51 367

原创 数据预处理 (2)

from sklearn.impute import SimpleImputerimport pandas as pddata=pd.read_csv("Narrativedata.csv",index_col=0)data.head() Age Sex Embarked Survived 0 22.0 male S No

2020-08-14 15:19:19 685

原创 数据预处理1

数据预处理1.1 数据预处理模块模块 preprocessing:包含数据预处理所有内容Impute 填补缺失值from sklearn.preprocessing import MinMaxScalerimport pandas as pdimport numpy as np1.1.1MinMaxScaler 数据归一化MinMaxScaler 数据归一化Normalization是归一化,不是正则化,真正的正则化是regularization,不是数据预处理的一种手段。归一

2020-08-14 15:16:19 169

原创 决策树与随机森林总结

import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sk

2020-08-13 11:35:45 661

原创 机器学习随机森林乳腺癌调参

泛化误差测试集上表现糟糕,泛化程度不够,误差大, 模型复杂度,模型太复杂过拟合当模型太复杂,模型就会过拟合,泛化能力就不够,所以泛化误差大。当模型太简单,模型就会欠拟合,拟合能力 就不够,所以误差也会大。只有当模型的复杂度刚刚好的才能够达到泛化误差小的目标。1:导库from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_

2020-08-12 10:51:56 269

原创 回归森林填补缺失值

用随机森林回归填补缺失值在sklearn中,我们可以使用sklearn.impute.SimpleImputer来轻松地将均 值,中值,或者其他常用的数值填补到数据中,在这个案例中,我们将使用均值,0,和随机森林回归来填补缺 失值,并验证四种状况下的拟合状况,找出对使用的数据集来说佳的缺失值填补方法。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import l

2020-08-11 20:38:22 821

原创 随机森林概念

导包https://live.bilibili.com/12582510,学习自菜菜的sklearnfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_split导入数据集win

2020-08-11 15:38:01 315

原创 泰塔尼克决策树学习

import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCVdata=pd.read_csv("data.csv")data.head()#找出标签,survived,数据类别需要为int,object-》intdata.info()<class 'pa

2020-08-10 09:00:29 226

原创 菜菜的sklearn学习 决策树

导库from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitimport pandas as pd探索数据wine=load_wine()wine.data.shape(178, 13)wine.target.shape(178,)type(wine.data[1])numpy.ndarrayp

2020-08-08 17:41:56 518

原创 pandas Index对象的创建查、改、增、删和使用

pandas Index对象的创建,、查、改、增、删和使用import numpy as npimport pandas as pd单层索引1.1 创建pd.Index(data, dtype = Object, name = None)name:一维列表dtype:索引元素的类型,默认为object型name:索引的名字,类似于列的名字data = ['a','b','c']data=pd.Index(data,name='name1')dataIndex(['a', 'b

2020-08-08 17:32:33 2586

原创 selenium

运行mongodb创建数据目录data将mongodb加入到环境变量中ajax异步js和lxml加载技术直接分析ajax分析借口使用selenium+chromdrivepip install seleniumchromdrive选择和本地相符的版本selenium 常用api的使用:drive.close()关闭当前页面,即关闭选项卡drive.quit()退出浏览器定位元...

2019-05-07 10:03:13 102

原创 多线程

多线程模块:threading模块产看进程中的线程print(threading.enumerate())threading.current_thread()多线程共享全局变量多线程都是在同一个进程中运行的,因此在进程中的全局变量是所有线程都是可共享的...

2019-04-28 11:56:09 90

原创 pymongdb

数据库,集合(表,可以存储多个文档,文档结构不固定) 文档(行,json的扩展,由键值对组成)db查看当前数据库show dbs参看all数据库use 数据库切换数据库db.dropDatabase()删除数据库db.集合名.insert(value)添加数据到指定集合db.集合名.find()从指定集合查找数据pip install pymongdbimport pymongo...

2019-04-28 11:24:11 153

原创 git初使用

git客户端使用连接github下载git客户端下载git,注册github将git与github连接起来获取ssh密匙,id_rsa.hub正式开始使用确定git与github连接,git init 初始化git remote add orign 下载地址下载地址,即你所使用仓库的下载地址.gitgit pull master将仓库文件下载到本地...

2019-03-06 21:08:23 133

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除