- 博客(7)
- 收藏
- 关注
原创 NLP练习
import numpy as np import pandas as pd from sklearn.ensemble import RandomForestRegressor,BaggingRegressor from sklearn.model_selection import cross_val_score from nltk.stem.snowball import SnowballS...
2018-12-27 15:54:36 384
原创 sklearn实现决策树
决策树 决策树是一种用于分类和回归的非参数监督学习方法。目标是通过学习从数据特征推断出的简单决策规则,创建一个预测目标变量值的模型。 决策树的优点: 1)易于理解和解释。树木可以被可视化; 2)只需要很少的数据准备,数据可以不规范化,但是需要注意的是,决策树不能有丢失的值; 3)使用该树的花费是用于训练树的数...
2018-12-22 12:15:18 6046 1
原创 Sklearn实现朴素贝叶斯
#------------------------------Sklearn 实现朴素贝叶斯----------------------- # 在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。 # 分别是GaussianNB,MultinomialNB和BernoulliNB。 # 其中GaussianNB就是先验为高斯分布的朴素贝叶斯, # MultinomialNB就是先验...
2018-12-21 11:12:34 598
原创 Sklearn实现knn
#----------------------------------Sklearn实现Knn------------------------------ # KNeighborsClassifier(n_neighbors=5, weights=’uniform’, # algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, # met...
2018-12-21 09:59:10 1042
原创 Sklearn中的线性回归
import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression #假设样本数据集如下; data=[ [0.067732,3.176513],[0.427810,3.816464],[0.995731,4.550095],[0.738336,4.2...
2018-12-20 21:44:28 615
原创 LDA主题模型
LDA文档主题生成模型 LDA是一种文档主题生成模型,包含词、主题和文档三层结构。 所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇文...
2018-12-20 19:08:48 604
原创 数据分析流程
数据分析流程 数据获取 -> 探索分析与可视化 -> 数据预处理 -> 数据分析与建模 -> 模型评估 数据分析就是利用统计分析方法,来提取有用的信息并进行总结与概括的过程。 数据获取的手段可以分为以下四种: 数据仓库 将所有业务数据经汇总处理,构成数据仓库(DW) 它是全部事实的记录 它是部分维度与数据的整理 数据库VS数据仓库: 数据库面向业务存储...
2018-12-19 20:08:45 475
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人