- 博客(19)
- 收藏
- 关注
原创 pandas学习
# pandas学习# 1:生成模拟数据集import pandas as pdimport numpy as npcompany=["A","B","C","D"]data=pd.DataFrame( { "company":[company[x] for x in np.random.randint(0,len(company),10)], "salary" :np.random.randint(5,50,10), "age"
2021-03-23 14:49:36 172 1
原创 手写数字识别
from sklearn.decomposition import PCAfrom sklearn.datasets import fetch_lfw_peoplefrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport pandas as pdimport nu
2020-08-18 16:10:01 338
原创 sklearn中的降维算法PCA和SVD
sklearn中的降维算法PCA和SVDimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.decomposition import PCA1:概述1.1.1 什么叫维度数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。。索引以外的数据,不分行列的叫一维(此时
2020-08-18 16:06:09 532
原创 python 运算符
1算术运算符a=21b=10c=0#加减乘除a+ba-ba*ba/b2.1#取余取整a%ba//b22 比较运算符# 是否相等,返回得为boola==ba!=bTrue# 大小比较a>ba>=ba<ba<=bFalse3 赋值运算符a+=b#等于a=a+b,其它类似a4 逻辑运算符a=20b=10a and b10a or b20not (a and b)Fal
2020-08-18 10:56:14 135
原创 数据类型与数据结构
1.变量1.1 整数和浮点数x=5# x 是对象名字,5是value,即对象值,常见值得类型为整数,浮点数,字符串,布尔值等。#输出函数print,获取当前变量取值类型为type()print(type(x))# 整数(int) - 通常被称为是整型或整数,是正或负整数,不带小数点。<class 'int'>f=5.1# 浮点型(floating point real values) - 浮点型由整数部分与小数部分组成,浮点型也可以使用科学计数法表示(2.5e2 = 2
2020-08-18 09:19:03 252
原创 sklearn 特征工程feature_selection
特征工程feature_selection特征提取,特征创造,特征选择特征选择-过滤法,嵌入法,包装法,和降维算法。import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifier as rfcfrom sklearn.model_selection import cross_val_scoredata=pd.read_csv("digit recognizor.csv")
2020-08-14 15:29:51 367
原创 数据预处理 (2)
from sklearn.impute import SimpleImputerimport pandas as pddata=pd.read_csv("Narrativedata.csv",index_col=0)data.head() Age Sex Embarked Survived 0 22.0 male S No
2020-08-14 15:19:19 685
原创 数据预处理1
数据预处理1.1 数据预处理模块模块 preprocessing:包含数据预处理所有内容Impute 填补缺失值from sklearn.preprocessing import MinMaxScalerimport pandas as pdimport numpy as np1.1.1MinMaxScaler 数据归一化MinMaxScaler 数据归一化Normalization是归一化,不是正则化,真正的正则化是regularization,不是数据预处理的一种手段。归一
2020-08-14 15:16:19 169
原创 决策树与随机森林总结
import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sk
2020-08-13 11:35:45 661
原创 机器学习随机森林乳腺癌调参
泛化误差测试集上表现糟糕,泛化程度不够,误差大, 模型复杂度,模型太复杂过拟合当模型太复杂,模型就会过拟合,泛化能力就不够,所以泛化误差大。当模型太简单,模型就会欠拟合,拟合能力 就不够,所以误差也会大。只有当模型的复杂度刚刚好的才能够达到泛化误差小的目标。1:导库from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_
2020-08-12 10:51:56 269
原创 回归森林填补缺失值
用随机森林回归填补缺失值在sklearn中,我们可以使用sklearn.impute.SimpleImputer来轻松地将均 值,中值,或者其他常用的数值填补到数据中,在这个案例中,我们将使用均值,0,和随机森林回归来填补缺 失值,并验证四种状况下的拟合状况,找出对使用的数据集来说佳的缺失值填补方法。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import l
2020-08-11 20:38:22 821
原创 随机森林概念
导包https://live.bilibili.com/12582510,学习自菜菜的sklearnfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_split导入数据集win
2020-08-11 15:38:01 315
原创 泰塔尼克决策树学习
import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCVdata=pd.read_csv("data.csv")data.head()#找出标签,survived,数据类别需要为int,object-》intdata.info()<class 'pa
2020-08-10 09:00:29 226
原创 菜菜的sklearn学习 决策树
导库from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitimport pandas as pd探索数据wine=load_wine()wine.data.shape(178, 13)wine.target.shape(178,)type(wine.data[1])numpy.ndarrayp
2020-08-08 17:41:56 518
原创 pandas Index对象的创建查、改、增、删和使用
pandas Index对象的创建,、查、改、增、删和使用import numpy as npimport pandas as pd单层索引1.1 创建pd.Index(data, dtype = Object, name = None)name:一维列表dtype:索引元素的类型,默认为object型name:索引的名字,类似于列的名字data = ['a','b','c']data=pd.Index(data,name='name1')dataIndex(['a', 'b
2020-08-08 17:32:33 2586
原创 selenium
运行mongodb创建数据目录data将mongodb加入到环境变量中ajax异步js和lxml加载技术直接分析ajax分析借口使用selenium+chromdrivepip install seleniumchromdrive选择和本地相符的版本selenium 常用api的使用:drive.close()关闭当前页面,即关闭选项卡drive.quit()退出浏览器定位元...
2019-05-07 10:03:13 102
原创 多线程
多线程模块:threading模块产看进程中的线程print(threading.enumerate())threading.current_thread()多线程共享全局变量多线程都是在同一个进程中运行的,因此在进程中的全局变量是所有线程都是可共享的...
2019-04-28 11:56:09 90
原创 pymongdb
数据库,集合(表,可以存储多个文档,文档结构不固定) 文档(行,json的扩展,由键值对组成)db查看当前数据库show dbs参看all数据库use 数据库切换数据库db.dropDatabase()删除数据库db.集合名.insert(value)添加数据到指定集合db.集合名.find()从指定集合查找数据pip install pymongdbimport pymongo...
2019-04-28 11:24:11 153
原创 git初使用
git客户端使用连接github下载git客户端下载git,注册github将git与github连接起来获取ssh密匙,id_rsa.hub正式开始使用确定git与github连接,git init 初始化git remote add orign 下载地址下载地址,即你所使用仓库的下载地址.gitgit pull master将仓库文件下载到本地...
2019-03-06 21:08:23 133
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人