对于数据进行处理的时候如何进行特征提取?有什么类型?怎么提取更加科学,怎么检验提取的特征是不是好特征,能不能分辨不同?
正好本学期在学概率论与数理统计部分,虽然目前还学得很浅,不知道怎么用。想起大一下学期学线性代数的时候做的人脸识别,里面的特征提取,PCA主成分分析方法什么的实际上基本没有掌握,基本就是cv工程,害。
常见特征提取
原始的材料主要就是数据、文本、图像三类。
统计特征提取方法可以用于数据预处理阶段,帮助我们更好地理解和描述数据的特征,为后续的建模和分析工作奠定基础。同时,统计特征也可以作为特征工程的一部分,通过对数据集的统计学特性进行提取和分析,来构建更加有效的特征表示。(均值、方差等)
文本特征 词袋模型和TF-IDF
图像特征: 边缘检测和颜色直方图
在深度学习中,特征提取既可以手动设计,也可以通过自动学习获取。手动设计特征需要领域专家的知识和经验,并且需要不断调整和优化,而自动学习特征则可以通过训练大规模数据集和深度神经网络来实现。自动学习特征可以有效地降低人工特征设计的工作量,并且能够获得更好的特征表示。
常用特征提取方法详解:统计特征、文本特征、图像特征,见以下链接:
https://wenku.csdn.net/column/1d59a1v96ohttps://wenku.csdn.net/column/1d59a1v96o
发现好多用这个scikit-learn进行处理的,在此先标记一下
官网:
sklearn是机器学习中一个常用的python第三方模块,对常用的机器学习算法进行了封装 其中包括: 1.分类(Classification) 2.回归(Regression) 3.聚类(Clustering) 4.数据降维(Dimensionality reduction) 5.常用模型(Model selection) 6.数据预处理(Preprocessing) 本文将从sklearn的安装开始讲解,由浅入深,逐步上手sklearn。
第二个链接主要讲的:
1.PCA算法 2.LDA算法 3.线性回归 4.逻辑回归 5.朴素贝叶斯 6.决策树 7.SVM 8.神经网络