AI
Ficca
这个作者很懒,什么都没留下…
展开
-
AI概述
1、AI与机器学习、深度学习相互关系2、机器学习领域3、深度学习是在机器学习的基础上加上人工神经网络原创 2019-04-07 10:19:57 · 283 阅读 · 0 评论 -
朴素贝叶斯算法
1、朴素 + 贝叶斯朴素:假设特征与特征之间相互独立公式:2、ex_1from sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.naive_bayes import MultinomialNBfrom...原创 2019-04-12 10:36:52 · 127 阅读 · 0 评论 -
K-近邻算法
1、简而言之:根据你的邻居来推断你的类别2、距离公式(确定邻居)3、K值取的过小,容易受到异常点的影响K值取的过大,容易受到样本不均衡的影响4、APIn_neighbours即K值5、总结ex_1from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_spli...原创 2019-04-08 22:05:18 · 133 阅读 · 0 评论 -
PCA降维小项目
话不多说,直接上代码'''1、获取数据2、合并表3、找出user_id和aisle之间的关系4、PCA降维'''import pandas as pdfrom sklearn.decomposition import PCAorder_products = pd.read_csv("./instacart/order_products__prior.csv")products...原创 2019-04-08 20:45:34 · 274 阅读 · 0 评论 -
特征降维 --- 主成分分析
1、定义2、APIex_1from sklearn.decomposition import PCAdef pca_demo(): ''' pca降维 ''' data = [[2,3,4,5],[6,3,0,8],[5,4,9,1]] #实例化一个转换器类 # 4列,4个特征,降为两个特征 transfer = PCA(n_c...原创 2019-04-08 20:42:36 · 269 阅读 · 0 评论 -
特征降维 ---特征选择 - 过滤式
1、低方差特征过滤2、APIex_1import pandas as pdfrom sklearn.feature_selection import VarianceThresholddef variance_demo(): '''' 过滤低方差特征 ''' data = pd.read_csv("factor_returns.csv") da...原创 2019-04-08 20:17:16 · 590 阅读 · 0 评论 -
特征提取 --- 标准化
1、由于归一化使用最大值最小值进行计算,若最大值或最小值缺失或错误,归一化结果的准确性就会大大降低,为此可采用标准化2、标准化公式:即3、APIsklearn.preprocessing.StandardScaler()StandardScaler.fit_transform(X)X:numpy array格式的数据 [n_samples,n_features]n_sampl...原创 2019-04-08 19:51:18 · 1060 阅读 · 0 评论 -
数据预处理 --- 归一化
1、公式:2、APIsklearn.preprocessing.MinMaxScaler(feature_range=(0,1))MinMaxScaler.fit_transform(X)X:numpy array格式的数据 [n_samples,n_features]n_samples:样本数 n_features:特征数(列)返回值:形状相同的array...原创 2019-04-08 19:38:07 · 271 阅读 · 0 评论 -
模型选择与调优
1、交叉验证(Cross Validation)分析:2、超参数搜索 - 网格搜索(Grid Search)3、模型选择与调优API原创 2019-04-11 22:40:50 · 357 阅读 · 0 评论 -
特征提取 --- Tf-idf
1、TF-IDF作用:用以评估一个字词对于一个文件集或语料库中一份文件的重要程度2、公式:1)词频(term frequency, tf)指一个给定的词语在该文件中出现的频率2)逆向文档频率(inverse document frequency, idf)是一个词语普遍重要性的度量。某一特定词语的idf,由总文件数除以包含该词语的文件数,对商取lg得到ex_1:两个词 :“经济” “非...原创 2019-04-08 09:55:15 · 567 阅读 · 0 评论 -
特征提取 --- 中文文本特征抽取
jieba库ex_1import jiebadef cut_word(text): text = ' '.join(list(jieba.cut(text))) return text def cut_chinese_demo2(): data = ["每一个公民的合法权利都值得守护", "每一个维权诉求都值得珍视。", ...原创 2019-04-08 09:15:50 · 2044 阅读 · 0 评论 -
特征提取 --- 文本特征抽取
sklearn.feature_extraction.text import CountVectorizer(stop_words=[])1、作用:对文本特征数据进行特征值化2、X是文本或包含文本字符串的可迭代对象,返回值:返回sparse矩阵(对重复词进行计数)CountVectorizer.fit_transform(X) 3、返回单词列表 CountVectorizer.get...原创 2019-04-08 09:03:57 · 1032 阅读 · 0 评论 -
特征提取 --- 字典特征抽取
1、将任意数据(如文本或图像)转换为可用于机器学习的数字特征2、遇到不同的数字特征,可以使用不同的提取方式:字典特征提取(特征离散化)文本特征提取图像特征提取(深度学习介绍)3、特征提取APIsklearn.feature_extraction4、字典特征提取类别作用:对字典数据进行特征值化sklearn.feature_extraction import DictVecto...原创 2019-04-07 23:25:36 · 2460 阅读 · 0 评论 -
特征工程
1、为什么需要特征工程?数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已2、什么是特征工程?特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程意义:会直接影响机器学习的效果3、pandas:数据清洗、数据处理sklearn:对于特征的处理提供了强大的接口4、特征工程包含内容:特征抽取特征预处理特征降维...原创 2019-04-07 22:55:59 · 184 阅读 · 0 评论 -
sklearn
1、sklearn.datasets.load_*()获取小规模数据集,数据集包含在datasets里ex_1:sklearn.datasets.load_iris()返回鸢尾花的数据集2、sklearn.datasets.fetch_*(data_home=None,subset='train/test/all')获取大规模数据集,需要从网络上下载,传入的函数的第一个参数是data_h...原创 2019-04-07 22:45:15 · 1587 阅读 · 0 评论 -
机器学习概述
1、机器学习是数据中抽取模型,进而实现预测2、数据集构成:特征值+目标值,一列作为一个特征,当然,也有一些数据并没与目标值,比如说:对人的体型或者其他特征分类3、机器学习算法分类:监督学习:目标值 : 类别 ----分类问题目标值: 连续型的数值 ---- 回归问题k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归回归:线性回归、岭回归无监督学习:输入数据集由输入特征值组成...原创 2019-04-07 20:32:29 · 122 阅读 · 0 评论 -
集成学习方法之随机森林
1、定义2、随机森林远原理过程3、API4、总结原创 2019-04-13 10:52:26 · 238 阅读 · 0 评论