数据分析实战篇_T o r的博客-CSDN博客

数据分析实战篇

关注

关注数：文章数：14 文章阅读量：3071 文章收藏量：4

作者: T o r

记忆在长间隔中形成潜意识层的内隐记忆才能进一步提升学习深度，实战正是调整内隐记忆的过程重复观察记忆无法达到潜意识层内隐记忆的有效学习效果，实战包括反思、演练（高度调用潜意识内隐记忆进行工作），此时出现偏差都能让潜意识层进行纠正，从而达到形成新的或正确的潜意识内隐记忆的效果。内隐记忆形成也是让工作变得更具效率的最有效方法。

展开

14、EM算法实战

高斯混合模型的底层代码import mathimport copyimport numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D（3D建模）生成数据方法将数据点X使用全局变量处理，方便后续程序调用将均值mu设置为全局变量，进行随机初始化，方便后面计算期望将期望excep设置为全局变量，方便后续计算将混合系数设置为全局变量，方便后续计算def generate_data(s

原创 2021-07-21 03:30:12 · 338 阅读 · 0 评论
13、支持向量机实战

分类 sklearn.svm.SVC(C=1.0, kernel=‘rbf’, degree=3, gamma=‘auto’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None,random_state=None) C：C-SVC的惩罚参数C?默认值是1.

原创 2021-07-16 21:37:14 · 110 阅读 · 0 评论
12、朴素贝叶斯实战

文本数据的分类import pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.naive_bayes import MultinomialNB #多项式朴素贝叶斯# 正则匹配，a-z，A-Z所有中文tfCoder = CountVectorizer(token_pattern="[a-zA-Z|\u4e00-\u9fa5]+") # TF模型X = df["words"]Y

原创 2021-07-16 14:19:26 · 129 阅读 · 0 评论
11、集成学习（二）实战

API解析AdaBoost算法（需要添加缩减系数，为了解决出现异常数据造成无穷放大从而导致出错）参数AdaBoostClassifierAdaBoostRegressorbase_estimator 弱分类器对象，默认为CART分类树DecisionTreeClassifier; 弱回归器对象，默认为CART回归树DecisionTreeRegressor;algorithm SAMME和SAMME.R: SAMME表示构建过程中使用样本集分类效果作为弱分类器的权重;SAMME

原创 2021-07-12 19:12:20 · 169 阅读 · 2 评论
10、集成学习（一）实战

随机森林API参数 RandomForestClassifier RandomForestRegrcriterion 指定划分标准，默认为gini，不支持其它参数指定划分标准，可选"mse”和"mae";默认mseloss 不支持指定误差的计算方式，可选参数”linear" , “square”,“exponential”,默认为"linear";一般不用改动n_estimators 最大迭代次数，也就是最多允许的决策树的数目，值过小可能会导致欠拟合，值

原创 2021-07-12 01:16:38 · 166 阅读 · 0 评论
9、决策树实战

决策树回归（引入L2正则化比较，突出神坛级算法决策树）：import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.linear_model import Ridgefrom sklearn.metrics import mean_squared_error, r2_scorefrom sklearn.

原创 2021-04-20 18:47:13 · 295 阅读 · 1 评论
8、K近邻算法实战

K近邻算法调用参数： weights：决策规则样本权重，可选参数:uniform(等权重)、distance(权重和距离成反比，越近影响越强);默认为uniform n_neighbors（相当于K的选择）：邻近数目，默认为5 algorithm（实现方法）：计算方式，默认为auto（自动选择，会选择到适合的方法），可选参数:auto、ball_tree、kd_tree、brute（蛮力法）;推荐选择kd_tree leaf_size（叶节点数量）

原创 2021-04-13 01:54:03 · 280 阅读 · 0 评论
7、逻辑回归实战

基于病理数据进行乳腺癌预测(良性2/恶性4)，利用逻辑回归的算法构建模型，通过概率来预测import numpy as npimport pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionimport matplotlib.

原创 2021-04-10 21:00:40 · 160 阅读 · 0 评论
6、数据降维演练

处理过拟合SVD和PCA都是常用的数据降维处理方式一般可以处理多特征数据的降维处理操作SVD和PCA的实战开发使用量不相上下，没有优劣可言，而且不同情况下好处也是不同的先进行降维再进行特征归一化处理（归一化也可以在降维前用，一般在降维后用）再进行模型处理from sklearn.decomposition import PCA, TruncatedSVD常用方法fit_transform（数据)import numpy as npimport matplotlib.pyplot as p

原创 2021-04-02 21:48:13 · 305 阅读 · 0 评论
5、网格搜索交叉验证实战

如何通过网格搜索交叉验证得到最优参数，并且通过各种模型比较，选择出最优化的模型形式：import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_split, GridSearchCV#都是属于模型选择的库from sklearn.linear_model import Lasso, Ridge # L1,L2的导入from

原创 2021-03-22 21:27:12 · 375 阅读 · 0 评论
4、sklearn实战的认识

sklearn标准线性回归模型import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_split #模型评估留出法（最基础的3、7分类的评估形式，这里导入的是模型评估模块）from sklearn.linear_model import LinearRegression#线性回归from sklearn.metrics i

原创 2021-03-12 18:02:51 · 211 阅读 · 0 评论
3、线性代数实战--底层算法应用

底层算法应用： 1、预处理：先进行数据预处理 x=np.array([8,7,6,2,7,6,7,6,3,1,4,8,5,2,7]) y=np.array([8,4,8,5,7,6,2,7,6,7,6,3,1,2,7]) 获取样本的数量 n=len(x) 给x增加一列1做准备，目的为了给作为截距的权重有位置可嵌入 x=np.c_[np.ones([n,1]),x] 为了后续维度对应，y也要进行维度的变化 y=y.reshape(15,1) 2、

原创 2021-03-05 01:56:53 · 229 阅读 · 1 评论
2、matplotlib实战

绘图目的： 1、函数绘制图像 2、分析数据结果小项目分析：正态分布图像设计： x=np.linspace(-5,5,10) y=1/np.sqrt(2*np.pi) * np.exp(-(x ** 2)/2) plt.plot(x,y) plt.show() 如果绘制函数曲线的时候，想让线更圆滑，就需要设置多个样本点，数据越多越接近真实图像 x=np.linspace(-5,5,100000)，真的有这么丝滑绘制函数

原创 2021-03-03 00:42:01 · 79 阅读 · 0 评论
1、pandas实战

房天下案例：一、读取数据 ftx.xls 一般读取信息，读取head（）函数的信息就行了二、加载房天下数据集，提取时间为2009年的数据，使用分组函数，计算上海和沈阳的地区的销售平均值这里是要选出2009、上海和沈阳的关键字的数据，所以要先进行筛选，可以先查看显示某种信息的数据，然后再通过赋值来保存出来，再进行统计处理先查找2009年信息： df_2009=df[df[‘年’]==2009]，这里的是双等号，这里面要放的是检验符合的数据对象，而不是数

原创 2021-02-28 14:52:46 · 226 阅读 · 0 评论

数据分析实战篇

作者: T o r

14、EM算法实战

13、支持向量机实战

12、朴素贝叶斯实战

11、集成学习（二）实战

10、集成学习（一）实战

9、决策树实战

8、K近邻算法实战

7、逻辑回归实战

6、数据降维演练

5、网格搜索交叉验证实战

4、sklearn实战的认识

3、线性代数实战--底层算法应用

2、matplotlib实战

1、pandas实战