自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xzl的博客

Welcome

  • 博客(17)
  • 资源 (2)
  • 收藏
  • 关注

原创 集成学习方法之随机森林

1、定义 2、随机森林远原理过程 3、API 4、总结

2019-04-13 10:52:26 237

原创 朴素贝叶斯算法

1、朴素 + 贝叶斯 朴素:假设特征与特征之间相互独立 公式: 2、 ex_1 from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from...

2019-04-12 10:36:52 126

原创 模型选择与调优

1、交叉验证(Cross Validation) 分析: 2、超参数搜索 - 网格搜索(Grid Search) 3、模型选择与调优API

2019-04-11 22:40:50 356

原创 K-近邻算法

1、简而言之:根据你的邻居来推断你的类别 2、距离公式(确定邻居) 3、K值取的过小,容易受到异常点的影响 K值取的过大,容易受到样本不均衡的影响 4、API n_neighbours即K值 5、总结 ex_1 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_spli...

2019-04-08 22:05:18 133

原创 PCA降维小项目

话不多说,直接上代码 ''' 1、获取数据 2、合并表 3、找出user_id和aisle之间的关系 4、PCA降维 ''' import pandas as pd from sklearn.decomposition import PCA order_products = pd.read_csv("./instacart/order_products__prior.csv") products...

2019-04-08 20:45:34 270

原创 特征降维 --- 主成分分析

1、定义 2、API ex_1 from sklearn.decomposition import PCA def pca_demo(): ''' pca降维 ''' data = [[2,3,4,5],[6,3,0,8],[5,4,9,1]] #实例化一个转换器类 # 4列,4个特征,降为两个特征 transfer = PCA(n_c...

2019-04-08 20:42:36 269

原创 特征降维 ---特征选择 - 过滤式

1、低方差特征过滤 2、API ex_1 import pandas as pd from sklearn.feature_selection import VarianceThreshold def variance_demo(): '''' 过滤低方差特征 ''' data = pd.read_csv("factor_returns.csv") da...

2019-04-08 20:17:16 590

原创 特征提取 --- 标准化

1、由于归一化使用最大值最小值进行计算,若最大值或最小值缺失或错误,归一化结果的准确性就会大大降低,为此可采用标准化 2、标准化公式: 即 3、API sklearn.preprocessing.StandardScaler() StandardScaler.fit_transform(X) X:numpy array格式的数据 [n_samples,n_features] n_sampl...

2019-04-08 19:51:18 1056

原创 数据预处理 --- 归一化

1、公式: 2、API sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)) MinMaxScaler.fit_transform(X) X:numpy array格式的数据 [n_samples,n_features] n_samples:样本数 n_features:特征数(列) 返回值:形状相同的array ...

2019-04-08 19:38:07 270

原创 特征提取 --- Tf-idf

1、TF-IDF作用:用以评估一个字词对于一个文件集或语料库中一份文件的重要程度 2、公式: 1)词频(term frequency, tf)指一个给定的词语在该文件中出现的频率 2)逆向文档频率(inverse document frequency, idf)是一个词语普遍重要性的度量。某一特定词语的idf,由总文件数除以包含该词语的文件数,对商取lg得到 ex_1: 两个词 :“经济” “非...

2019-04-08 09:55:15 565

原创 特征提取 --- 中文文本特征抽取

jieba库 ex_1 import jieba def cut_word(text): text = ' '.join(list(jieba.cut(text))) return text def cut_chinese_demo2(): data = ["每一个公民的合法权利都值得守护", "每一个维权诉求都值得珍视。", ...

2019-04-08 09:15:50 2043

原创 特征提取 --- 文本特征抽取

sklearn.feature_extraction.text import CountVectorizer(stop_words=[]) 1、作用:对文本特征数据进行特征值化 2、X是文本或包含文本字符串的可迭代对象,返回值:返回sparse矩阵(对重复词进行计数) CountVectorizer.fit_transform(X) 3、返回单词列表 CountVectorizer.get...

2019-04-08 09:03:57 1030

原创 特征提取 --- 字典特征抽取

1、将任意数据(如文本或图像)转换为可用于机器学习的数字特征 2、遇到不同的数字特征,可以使用不同的提取方式: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习介绍) 3、特征提取API sklearn.feature_extraction 4、字典特征提取 类别 作用:对字典数据进行特征值化 sklearn.feature_extraction import DictVecto...

2019-04-07 23:25:36 2456

原创 特征工程

1、为什么需要特征工程? 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 2、什么是特征工程? 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程 意义:会直接影响机器学习的效果 3、pandas:数据清洗、数据处理 sklearn:对于特征的处理提供了强大的接口 4、特征工程包含内容: 特征抽取 特征预处理 特征降维 ...

2019-04-07 22:55:59 182

原创 sklearn

1、sklearn.datasets.load_*() 获取小规模数据集,数据集包含在datasets里 ex_1: sklearn.datasets.load_iris()返回鸢尾花的数据集 2、sklearn.datasets.fetch_*(data_home=None,subset='train/test/all') 获取大规模数据集,需要从网络上下载,传入的函数的第一个参数是data_h...

2019-04-07 22:45:15 1585

原创 机器学习概述

1、机器学习是数据中抽取模型,进而实现预测 2、数据集构成: 特征值+目标值,一列作为一个特征,当然,也有一些数据并没与目标值,比如说:对人的体型或者其他特征分类 3、机器学习算法分类: 监督学习: 目标值 : 类别 ----分类问题 目标值: 连续型的数值 ---- 回归问题 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归 回归:线性回归、岭回归 无监督学习: 输入数据集由输入特征值组成 ...

2019-04-07 20:32:29 120

原创 AI概述

1、AI与机器学习、深度学习相互关系 2、机器学习领域 3、深度学习是在机器学习的基础上加上人工神经网络

2019-04-07 10:19:57 276

calculate SUM(n) = 1 + 2 + 3 + ... + n

The input will consist of a series of integers n, one integer per line. For each case, output SUM(n) in one line, followed by a blank line. You may assume the result will be in the range of 32-bit signed integer.

2019-01-05

C++统计字符个数

C++输入字符串,统计字符串中各种字符的个数,并输出,代码中已经给出相关例子

2019-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除