2019年04月_Ficca

04月 02月 01月

原创集成学习方法之随机森林

1、定义 2、随机森林远原理过程 3、API 4、总结

2019-04-13 10:52:26 237

原创朴素贝叶斯算法

1、朴素 + 贝叶斯朴素：假设特征与特征之间相互独立公式： 2、 ex_1 from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from...

2019-04-12 10:36:52 126

原创模型选择与调优

1、交叉验证（Cross Validation）分析： 2、超参数搜索 - 网格搜索（Grid Search） 3、模型选择与调优API

2019-04-11 22:40:50 356

原创 K-近邻算法

1、简而言之：根据你的邻居来推断你的类别 2、距离公式（确定邻居） 3、K值取的过小，容易受到异常点的影响 K值取的过大，容易受到样本不均衡的影响 4、API n_neighbours即K值 5、总结 ex_1 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_spli...

2019-04-08 22:05:18 133

话不多说，直接上代码 ''' 1、获取数据 2、合并表 3、找出user_id和aisle之间的关系 4、PCA降维 ''' import pandas as pd from sklearn.decomposition import PCA order_products = pd.read_csv("./instacart/order_products__prior.csv") products...

2019-04-08 20:45:34 270

原创特征降维 --- 主成分分析

1、定义 2、API ex_1 from sklearn.decomposition import PCA def pca_demo(): ''' pca降维 ''' data = [[2,3,4,5],[6,3,0,8],[5,4,9,1]] #实例化一个转换器类 # 4列，4个特征，降为两个特征 transfer = PCA(n_c...

2019-04-08 20:42:36 269

原创特征降维 ---特征选择 - 过滤式

1、低方差特征过滤 2、API ex_1 import pandas as pd from sklearn.feature_selection import VarianceThreshold def variance_demo(): '''' 过滤低方差特征 ''' data = pd.read_csv("factor_returns.csv") da...

2019-04-08 20:17:16 590

原创特征提取 --- 标准化

1、由于归一化使用最大值最小值进行计算，若最大值或最小值缺失或错误，归一化结果的准确性就会大大降低，为此可采用标准化 2、标准化公式：即 3、API sklearn.preprocessing.StandardScaler() StandardScaler.fit_transform(X) X：numpy array格式的数据 [n_samples,n_features] n_sampl...

2019-04-08 19:51:18 1056

原创数据预处理 --- 归一化

1、公式： 2、API sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)) MinMaxScaler.fit_transform(X) X：numpy array格式的数据 [n_samples,n_features] n_samples：样本数 n_features：特征数（列）返回值：形状相同的array ...

2019-04-08 19:38:07 270

原创特征提取 --- Tf-idf

1、TF-IDF作用：用以评估一个字词对于一个文件集或语料库中一份文件的重要程度 2、公式： 1）词频（term frequency, tf）指一个给定的词语在该文件中出现的频率 2）逆向文档频率（inverse document frequency, idf）是一个词语普遍重要性的度量。某一特定词语的idf，由总文件数除以包含该词语的文件数，对商取lg得到 ex_1: 两个词：“经济” “非...

2019-04-08 09:55:15 565

原创特征提取 --- 中文文本特征抽取

jieba库 ex_1 import jieba def cut_word(text): text = ' '.join(list(jieba.cut(text))) return text def cut_chinese_demo2(): data = ["每一个公民的合法权利都值得守护", "每一个维权诉求都值得珍视。", ...

2019-04-08 09:15:50 2043

原创特征提取 --- 文本特征抽取

sklearn.feature_extraction.text import CountVectorizer(stop_words=[]) 1、作用：对文本特征数据进行特征值化 2、X是文本或包含文本字符串的可迭代对象，返回值：返回sparse矩阵（对重复词进行计数） CountVectorizer.fit_transform(X) 3、返回单词列表 CountVectorizer.get...

2019-04-08 09:03:57 1030

原创特征提取 --- 字典特征抽取

1、将任意数据（如文本或图像）转换为可用于机器学习的数字特征 2、遇到不同的数字特征，可以使用不同的提取方式：字典特征提取（特征离散化）文本特征提取图像特征提取（深度学习介绍） 3、特征提取API sklearn.feature_extraction 4、字典特征提取类别作用：对字典数据进行特征值化 sklearn.feature_extraction import DictVecto...

2019-04-07 23:25:36 2456

原创特征工程

1、为什么需要特征工程？数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已 2、什么是特征工程？特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程意义：会直接影响机器学习的效果 3、pandas：数据清洗、数据处理 sklearn：对于特征的处理提供了强大的接口 4、特征工程包含内容：特征抽取特征预处理特征降维 ...

2019-04-07 22:55:59 182

原创 sklearn

1、sklearn.datasets.load_*() 获取小规模数据集，数据集包含在datasets里 ex_1： sklearn.datasets.load_iris()返回鸢尾花的数据集 2、sklearn.datasets.fetch_*(data_home=None,subset='train/test/all') 获取大规模数据集，需要从网络上下载，传入的函数的第一个参数是data_h...

2019-04-07 22:45:15 1585

原创机器学习概述

1、机器学习是数据中抽取模型，进而实现预测 2、数据集构成：特征值+目标值，一列作为一个特征，当然，也有一些数据并没与目标值，比如说：对人的体型或者其他特征分类 3、机器学习算法分类：监督学习：目标值：类别 ----分类问题目标值：连续型的数值 ---- 回归问题 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归回归：线性回归、岭回归无监督学习：输入数据集由输入特征值组成 ...

2019-04-07 20:32:29 120

原创 AI概述

1、AI与机器学习、深度学习相互关系 2、机器学习领域 3、深度学习是在机器学习的基础上加上人工神经网络

2019-04-07 10:19:57 276

calculate SUM(n) = 1 + 2 + 3 + ... + n

The input will consist of a series of integers n, one integer per line. For each case, output SUM(n) in one line, followed by a blank line. You may assume the result will be in the range of 32-bit signed integer.

2019-01-05

C++统计字符个数

C++输入字符串，统计字符串中各种字符的个数，并输出，代码中已经给出相关例子