机器学习入门
-日常问题汇总
弎见
这个作者很懒,什么都没留下…
展开
-
美国人口普查数据预测收入sklearn算法汇总3之ROC: KNN,LogisticRegression,RandomForest,NaiveBayes,StochasticGradientDece
接<美国人口普查数据预测收入sklearn算法汇总1: 了解数据以及数据预处理><美国人口普查数据预测收入sklearn算法汇总2: 特征编码, 特征选择, 降维, 递归特征消除>九. 机器学习算法KNNLogistic RegressionRandom ForestNaive BayesStochastic Gradient DecentLinear S...原创 2019-12-10 00:48:22 · 4078 阅读 · 0 评论 -
美国人口普查数据预测收入sklearn算法汇总2: 特征编码, 特征选择, 降维, 递归特征消除
接<美国人口普查数据预测收入sklearn算法汇总1: 了解数据以及数据预处理>六. 对特征进行编码pd.get_dummies()one_hot_cols = dataset_bin.columns.drop('predclass')dataset_bin_enc = pd.get_dummies(dataset_bin, columns=one_hot_cols)pr...原创 2019-12-09 23:44:37 · 2613 阅读 · 0 评论 -
美国人口普查数据预测收入sklearn算法汇总1: 了解数据以及数据预处理
一. 了解数据集任务目标:建立分类模型预测一个人的收入能否超过五万美元人口普查数据集: https://archive.ics.uci.edu/ml/datasets/adultimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snssns.set_style...原创 2019-12-03 22:00:09 · 6685 阅读 · 12 评论 -
(RandomForestRegressor)随机森林1-天气最高温度预测
import pandas as pddata = pd.read_csv('temps.csv')print('The shape of our data is: ', data.shape)data.head()The shape of our data is: (348, 9)import datetimeyears = data['year']months = dat...原创 2019-11-22 19:07:31 · 4638 阅读 · 3 评论 -
sklearn降维2: 主成分分析PCA原理python过程
import numpy as npimport pandas as pddf = pd.read_csv('iris.data')df.columns = ['sepal_len','sepal_wid','petal_len','petal_wid','class']df.head()X = df.iloc[:,0:4].valuesy = df.iloc[:,4].value...原创 2019-11-21 00:20:25 · 435 阅读 · 0 评论 -
sklearn降维1: 线性判别分析LDA原理python过程
import pandas as pd#df = pd.read_csv('iris.data', header=None, sep=',')df = pd.io.parsers.read_csv(filepath_or_buffer='https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',head...原创 2019-11-21 00:01:44 · 1212 阅读 · 0 评论 -
numpy.linalg线性代数应用: inv, eig, det, solve, norm
numpy.linalg模块包含线性代数的函数。使用这个模块,可以计算逆矩阵、求特征值、解线性方程组以及求解行列式等。np.linalg.det() 计算输入矩阵的行列式np.linalg.solve() 给出矩阵形式的线性方程的解np.linalg.inv() 计算矩阵的乘法逆矩阵np.linalg.eig() 求矩阵的特征值和特征向量np.linalg.eigvals() 求矩阵的...原创 2019-11-20 23:37:29 · 1900 阅读 · 0 评论 -
sklearn.cluster聚类算法:K-means和DBSCAN 学习笔记
首先放两个好玩的网页,动态可视化展示K-means和DBSCANK-meanhttps://www.naftaliharris.com/blog/visualizing-k-means-clustering/DBSCANhttps://www.naftaliharris.com/blog/visualizing-dbscan-clustering/import pandas as p...原创 2019-11-01 20:26:11 · 1373 阅读 · 0 评论 -
sklearn文本特征提取-特征数值计算CountVectorizer 学习笔记
CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。参数表作用encodeing使用默认的utf-8即可,分析器将会以utf-8解码raw document...原创 2019-11-01 19:38:22 · 701 阅读 · 0 评论 -
naive_bayes贝叶斯新闻分类 学习笔记
import pandas as pdimport jieba # 结巴分词器df_news = pd.read_csv('val.txt',names=['category','theme','URL','content'],encoding='utf-8',sep='\s+')df_news = df_news.dropna()content = df_news.content...原创 2019-11-01 19:15:36 · 322 阅读 · 0 评论 -
贝叶斯拼写检查器 学习笔记
import re,collections# 把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号def words(text): return re.findall('[a-z]+', text.lower()) # 使用dict时,如果引用的Key不存在,就会抛出KeyError。# 如果希望key不存在时,返回一个默认值,就可以用defaultdic...原创 2019-10-30 18:47:08 · 155 阅读 · 0 评论 -
决策树分类,降维,网络搜索交叉验证综合实例-鸢尾花数据 学习笔记
import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn import treefrom sklearn.tree import DecisionTreeClassifier #分类树from sklearn.model_selecti...原创 2019-10-30 17:27:45 · 1128 阅读 · 0 评论 -
(DecisionTreeClassifier)决策树可视化实例-鸢尾花数据分类 学习笔记
from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeClassifier, export_graphvizimport pydotplusfrom IPython.display impor...原创 2019-10-29 11:38:07 · 5699 阅读 · 3 评论 -
(DecisionTreeRegressor)决策树回归预测实例-max_depth 学习笔记
import numpy as npfrom sklearn.tree import DecisionTreeRegressorimport matplotlib.pyplot as plt%matplotlib inlinen = 100x = np.random.rand(n)*6 - 3x.sort()y = np.sin(x) + np.random.rand(n) + 0...原创 2019-10-29 11:15:38 · 6372 阅读 · 0 评论 -
(DecisionTreeRegressor)决策树回归实例-加州房价数据 学习笔记
import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.dataset.california_housing import fetch_california_housing# 读取加州房价数据housing = fetch_california_housing()#print(housing.DESCR)#housi...原创 2019-10-29 00:19:36 · 8967 阅读 · 3 评论 -
逻辑回归-信用卡欺诈检测 学习笔记
读取数据 , 了解数据分布import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinedata = pd.read_csv('creditcard.csv')# print(data.head())count_classes = pd.value_counts(data...原创 2019-10-01 18:51:18 · 389 阅读 · 1 评论 -
梯度下降-逻辑回归 学习笔记
梯度下降求解逻辑回归目标:建立分类器 , 求解出三个参数 :θ0θ1θ2\theta_0 \theta_1 \theta_2θ0θ1θ2设定阈值,根据阈值判断录取结果.要完成的模块:sigmoid : 映射到概率的函数model : 返回预测结果值cost : 根据参数计算损失gradient : 计算每个参数的梯度方向descent : 进行参数更新accur...原创 2019-09-29 23:18:35 · 160 阅读 · 0 评论 -
K近邻KNeighborsRegressor--StandardScaler标准化--mean_squared_error均方根误差 学习笔记
K近邻算法np.abs()函数pd.sample()参数含义pd.str同时去掉分隔符和货币符号新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowc...原创 2019-09-09 11:08:57 · 927 阅读 · 0 评论