qq_34910948-CSDN博客

原创 pandas学习

# pandas学习# 1：生成模拟数据集import pandas as pdimport numpy as npcompany=["A","B","C","D"]data=pd.DataFrame( { "company":[company[x] for x in np.random.randint(0,len(company),10)], "salary" :np.random.randint(5,50,10), "age"

2021-03-23 14:49:36 183 1

原创手写数字识别

from sklearn.decomposition import PCAfrom sklearn.datasets import fetch_lfw_peoplefrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport pandas as pdimport nu

2020-08-18 16:10:01 345

原创 sklearn中的降维算法PCA和SVD

sklearn中的降维算法PCA和SVDimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.decomposition import PCA1：概述1.1.1 什么叫维度数组和Series来说，维度就是功能shape返回的结果，shape中返回了几个数字，就是几维。。索引以外的数据，不分行列的叫一维（此时

2020-08-18 16:06:09 538

原创 python 运算符

1算术运算符a=21b=10c=0#加减乘除a+ba-ba*ba/b2.1#取余取整a%ba//b22 比较运算符# 是否相等，返回得为boola==ba!=bTrue# 大小比较a>ba>=ba<ba<=bFalse3 赋值运算符a+=b#等于a=a+b,其它类似a4 逻辑运算符a=20b=10a and b10a or b20not (a and b)Fal

2020-08-18 10:56:14 145

原创数据类型与数据结构

1.变量1.1 整数和浮点数x=5# x 是对象名字，5是value，即对象值，常见值得类型为整数，浮点数，字符串，布尔值等。#输出函数print,获取当前变量取值类型为type（）print(type(x))# 整数(int) - 通常被称为是整型或整数，是正或负整数，不带小数点。<class 'int'>f=5.1# 浮点型(floating point real values) - 浮点型由整数部分与小数部分组成，浮点型也可以使用科学计数法表示（2.5e2 = 2

2020-08-18 09:19:03 264

原创 sklearn 特征工程feature_selection

特征工程feature_selection特征提取，特征创造，特征选择特征选择-过滤法，嵌入法，包装法，和降维算法。import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifier as rfcfrom sklearn.model_selection import cross_val_scoredata=pd.read_csv("digit recognizor.csv")

2020-08-14 15:29:51 379

原创数据预处理 (2)

from sklearn.impute import SimpleImputerimport pandas as pddata=pd.read_csv("Narrativedata.csv",index_col=0)data.head() Age Sex Embarked Survived 0 22.0 male S No

2020-08-14 15:19:19 717

原创数据预处理1

数据预处理1.1 数据预处理模块模块 preprocessing：包含数据预处理所有内容Impute 填补缺失值from sklearn.preprocessing import MinMaxScalerimport pandas as pdimport numpy as np1.1.1MinMaxScaler 数据归一化MinMaxScaler 数据归一化Normalization是归一化，不是正则化，真正的正则化是regularization，不是数据预处理的一种手段。归一

2020-08-14 15:16:19 180

原创决策树与随机森林总结

import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sk

2020-08-13 11:35:45 695

原创机器学习随机森林乳腺癌调参

泛化误差测试集上表现糟糕，泛化程度不够，误差大，模型复杂度，模型太复杂过拟合当模型太复杂，模型就会过拟合，泛化能力就不够，所以泛化误差大。当模型太简单，模型就会欠拟合，拟合能力就不够，所以误差也会大。只有当模型的复杂度刚刚好的才能够达到泛化误差小的目标。1:导库from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_

2020-08-12 10:51:56 278

原创回归森林填补缺失值

用随机森林回归填补缺失值在sklearn中，我们可以使用sklearn.impute.SimpleImputer来轻松地将均值，中值，或者其他常用的数值填补到数据中，在这个案例中，我们将使用均值，0，和随机森林回归来填补缺失值，并验证四种状况下的拟合状况，找出对使用的数据集来说佳的缺失值填补方法。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import l

2020-08-11 20:38:22 831

原创随机森林概念

导包https://live.bilibili.com/12582510，学习自菜菜的sklearnfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_split导入数据集win

2020-08-11 15:38:01 319

原创泰塔尼克决策树学习

import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCVdata=pd.read_csv("data.csv")data.head()#找出标签，survived，数据类别需要为int，object-》intdata.info()<class 'pa

2020-08-10 09:00:29 233

原创菜菜的sklearn学习决策树

导库from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitimport pandas as pd探索数据wine=load_wine()wine.data.shape(178, 13)wine.target.shape(178,)type(wine.data[1])numpy.ndarrayp

2020-08-08 17:41:56 529

原创 pandas Index对象的创建查、改、增、删和使用

pandas Index对象的创建,、查、改、增、删和使用import numpy as npimport pandas as pd单层索引1.1 创建pd.Index(data, dtype = Object, name = None)name：一维列表dtype：索引元素的类型，默认为object型name：索引的名字，类似于列的名字data = ['a','b','c']data=pd.Index(data,name='name1')dataIndex(['a', 'b

2020-08-08 17:32:33 2697

原创 selenium

运行mongodb创建数据目录data将mongodb加入到环境变量中ajax异步js和lxml加载技术直接分析ajax分析借口使用selenium+chromdrivepip install seleniumchromdrive选择和本地相符的版本selenium 常用api的使用：drive.close()关闭当前页面，即关闭选项卡drive.quit()退出浏览器定位元...

2019-05-07 10:03:13 108

原创多线程

多线程模块：threading模块产看进程中的线程print(threading.enumerate())threading.current_thread()多线程共享全局变量多线程都是在同一个进程中运行的，因此在进程中的全局变量是所有线程都是可共享的...

2019-04-28 11:56:09 93

原创 pymongdb

数据库，集合（表，可以存储多个文档，文档结构不固定）文档（行，json的扩展，由键值对组成）db查看当前数据库show dbs参看all数据库use 数据库切换数据库db.dropDatabase()删除数据库db.集合名.insert(value)添加数据到指定集合db.集合名.find()从指定集合查找数据pip install pymongdbimport pymongo...

2019-04-28 11:24:11 164

原创 git初使用

git客户端使用连接github下载git客户端下载git，注册github将git与github连接起来获取ssh密匙，id_rsa.hub正式开始使用确定git与github连接，git init 初始化git remote add orign 下载地址下载地址，即你所使用仓库的下载地址.gitgit pull master将仓库文件下载到本地...

2019-03-06 21:08:23 139

qq_34910948的博客