ml
阿唐明
time is money
https://www.zhihu.com/people/hirolin-89
展开
-
GBDT+LR 入门+实例
GBDT-LR思想利用GBDT生成特征在利用LR对特征值进行拟合。GBDT是梯度提升决策树,由多棵树组成。构造一个决策树,根据已有的模型和实际样本输出的残差上再构造一颗决策树,不断地进行迭代。每一次迭代都会产生一个增益较大的分类特征,因此GBDT树有多少个叶子节点,得到的特征空间就有多大,并将该特征作为LR模型的输入。下面通过一个实例说明这个过程。1.准备数据使用sklearn 数据集...原创 2020-03-17 22:38:15 · 810 阅读 · 0 评论 -
机器学习问题处理流程
1.加载数据,查看总体情况pandas。如果文件过大则用chunck分块head()info()describe() 注意缺失值2.数据预处理离群点 根据数据说明判断是否要去除数据是否符合正态分布。如果用回归模型则考虑转换数据之间关联性 使用corr如果数据有id这样的自增数据,删除 。抽取label字段3.特征工程丢失值填充0 或者None看数据说明Coun...原创 2020-02-15 23:21:57 · 191 阅读 · 0 评论 -
关键词提取-TFIDF 自定义逆文档IDF的值
TF-IDF用于提取关键词,那么如何从多个文档中提取出关键词。文章的关键词可能有什么规律,表示文章主要意思,那这个词应该在该文章中出现多次,但是在其他文章中出现次数不多。TF 词频 (Term Frequency)表示w在文档Di中出现的频率TF=count(w)DiTF = \frac {count(w)}{Di}TF=Dicount(w)IDF 逆文档频率(Inverse Doc...原创 2020-02-14 23:58:04 · 475 阅读 · 0 评论 -
python线性回归基本实现
通过这个笔记记录以下学习的过程。 在使用python实现机器学习,可以使用anaconda (清华镜像下载)去实现。 线性回归是常见的拟合算法,本文通过梯度下降实现数据拟合。1.到入库import numpy as np #导入数据处理模块numpyimport matplotlib.pyplot as plt #绘图模块2. 产生随机数据x = np.ara...原创 2018-06-14 23:56:10 · 540 阅读 · 0 评论 -
jupyter远程访问+kernel配置+背景色更换
1.远程访问1.首先主机上安装jupyter notebook(可以使用anoconda镜像安装)2.生成jupyter配置文件jupyter notebook --generate-config#输出 Writing default config to: /root/.jupyter/jupyter_notebook_config.py jupyter 密码访问设置,即打开j...原创 2019-02-28 23:10:03 · 642 阅读 · 0 评论