- 博客(17)
- 资源 (2)
- 收藏
- 关注
原创 朴素贝叶斯算法
1、朴素 + 贝叶斯 朴素:假设特征与特征之间相互独立 公式: 2、 ex_1 from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from...
2019-04-12 10:36:52 126
原创 模型选择与调优
1、交叉验证(Cross Validation) 分析: 2、超参数搜索 - 网格搜索(Grid Search) 3、模型选择与调优API
2019-04-11 22:40:50 356
原创 K-近邻算法
1、简而言之:根据你的邻居来推断你的类别 2、距离公式(确定邻居) 3、K值取的过小,容易受到异常点的影响 K值取的过大,容易受到样本不均衡的影响 4、API n_neighbours即K值 5、总结 ex_1 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_spli...
2019-04-08 22:05:18 133
原创 PCA降维小项目
话不多说,直接上代码 ''' 1、获取数据 2、合并表 3、找出user_id和aisle之间的关系 4、PCA降维 ''' import pandas as pd from sklearn.decomposition import PCA order_products = pd.read_csv("./instacart/order_products__prior.csv") products...
2019-04-08 20:45:34 270
原创 特征降维 --- 主成分分析
1、定义 2、API ex_1 from sklearn.decomposition import PCA def pca_demo(): ''' pca降维 ''' data = [[2,3,4,5],[6,3,0,8],[5,4,9,1]] #实例化一个转换器类 # 4列,4个特征,降为两个特征 transfer = PCA(n_c...
2019-04-08 20:42:36 269
原创 特征降维 ---特征选择 - 过滤式
1、低方差特征过滤 2、API ex_1 import pandas as pd from sklearn.feature_selection import VarianceThreshold def variance_demo(): '''' 过滤低方差特征 ''' data = pd.read_csv("factor_returns.csv") da...
2019-04-08 20:17:16 590
原创 特征提取 --- 标准化
1、由于归一化使用最大值最小值进行计算,若最大值或最小值缺失或错误,归一化结果的准确性就会大大降低,为此可采用标准化 2、标准化公式: 即 3、API sklearn.preprocessing.StandardScaler() StandardScaler.fit_transform(X) X:numpy array格式的数据 [n_samples,n_features] n_sampl...
2019-04-08 19:51:18 1056
原创 数据预处理 --- 归一化
1、公式: 2、API sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)) MinMaxScaler.fit_transform(X) X:numpy array格式的数据 [n_samples,n_features] n_samples:样本数 n_features:特征数(列) 返回值:形状相同的array ...
2019-04-08 19:38:07 270
原创 特征提取 --- Tf-idf
1、TF-IDF作用:用以评估一个字词对于一个文件集或语料库中一份文件的重要程度 2、公式: 1)词频(term frequency, tf)指一个给定的词语在该文件中出现的频率 2)逆向文档频率(inverse document frequency, idf)是一个词语普遍重要性的度量。某一特定词语的idf,由总文件数除以包含该词语的文件数,对商取lg得到 ex_1: 两个词 :“经济” “非...
2019-04-08 09:55:15 565
原创 特征提取 --- 中文文本特征抽取
jieba库 ex_1 import jieba def cut_word(text): text = ' '.join(list(jieba.cut(text))) return text def cut_chinese_demo2(): data = ["每一个公民的合法权利都值得守护", "每一个维权诉求都值得珍视。", ...
2019-04-08 09:15:50 2043
原创 特征提取 --- 文本特征抽取
sklearn.feature_extraction.text import CountVectorizer(stop_words=[]) 1、作用:对文本特征数据进行特征值化 2、X是文本或包含文本字符串的可迭代对象,返回值:返回sparse矩阵(对重复词进行计数) CountVectorizer.fit_transform(X) 3、返回单词列表 CountVectorizer.get...
2019-04-08 09:03:57 1030
原创 特征提取 --- 字典特征抽取
1、将任意数据(如文本或图像)转换为可用于机器学习的数字特征 2、遇到不同的数字特征,可以使用不同的提取方式: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习介绍) 3、特征提取API sklearn.feature_extraction 4、字典特征提取 类别 作用:对字典数据进行特征值化 sklearn.feature_extraction import DictVecto...
2019-04-07 23:25:36 2456
原创 特征工程
1、为什么需要特征工程? 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 2、什么是特征工程? 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程 意义:会直接影响机器学习的效果 3、pandas:数据清洗、数据处理 sklearn:对于特征的处理提供了强大的接口 4、特征工程包含内容: 特征抽取 特征预处理 特征降维 ...
2019-04-07 22:55:59 182
原创 sklearn
1、sklearn.datasets.load_*() 获取小规模数据集,数据集包含在datasets里 ex_1: sklearn.datasets.load_iris()返回鸢尾花的数据集 2、sklearn.datasets.fetch_*(data_home=None,subset='train/test/all') 获取大规模数据集,需要从网络上下载,传入的函数的第一个参数是data_h...
2019-04-07 22:45:15 1585
原创 机器学习概述
1、机器学习是数据中抽取模型,进而实现预测 2、数据集构成: 特征值+目标值,一列作为一个特征,当然,也有一些数据并没与目标值,比如说:对人的体型或者其他特征分类 3、机器学习算法分类: 监督学习: 目标值 : 类别 ----分类问题 目标值: 连续型的数值 ---- 回归问题 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归 回归:线性回归、岭回归 无监督学习: 输入数据集由输入特征值组成 ...
2019-04-07 20:32:29 120
calculate SUM(n) = 1 + 2 + 3 + ... + n
2019-01-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人