2018年12月_菇綡

原创 NLP练习

import numpy as np import pandas as pd from sklearn.ensemble import RandomForestRegressor,BaggingRegressor from sklearn.model_selection import cross_val_score from nltk.stem.snowball import SnowballS...

2018-12-27 15:54:36 384

原创 sklearn实现决策树

决策树决策树是一种用于分类和回归的非参数监督学习方法。目标是通过学习从数据特征推断出的简单决策规则，创建一个预测目标变量值的模型。决策树的优点: 1）易于理解和解释。树木可以被可视化； 2）只需要很少的数据准备，数据可以不规范化，但是需要注意的是，决策树不能有丢失的值； 3）使用该树的花费是用于训练树的数...

2018-12-22 12:15:18 6046 1

原创 Sklearn实现朴素贝叶斯

#------------------------------Sklearn 实现朴素贝叶斯----------------------- # 在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。 # 分别是GaussianNB，MultinomialNB和BernoulliNB。 # 其中GaussianNB就是先验为高斯分布的朴素贝叶斯， # MultinomialNB就是先验...

2018-12-21 11:12:34 598

原创 Sklearn实现knn

#----------------------------------Sklearn实现Knn------------------------------ # KNeighborsClassifier(n_neighbors=5, weights=’uniform’, # algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, # met...

2018-12-21 09:59:10 1042

原创 Sklearn中的线性回归

import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression #假设样本数据集如下; data=[ [0.067732,3.176513],[0.427810,3.816464],[0.995731,4.550095],[0.738336,4.2...

2018-12-20 21:44:28 615

原创 LDA主题模型

LDA文档主题生成模型 LDA是一种文档主题生成模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。 LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文...

2018-12-20 19:08:48 604

原创数据分析流程

数据分析流程数据获取 -> 探索分析与可视化 -> 数据预处理 -> 数据分析与建模 -> 模型评估数据分析就是利用统计分析方法，来提取有用的信息并进行总结与概括的过程。数据获取的手段可以分为以下四种：数据仓库将所有业务数据经汇总处理，构成数据仓库（DW）它是全部事实的记录它是部分维度与数据的整理数据库VS数据仓库：数据库面向业务存储...

2018-12-19 20:08:45 475

weixin_39667003的博客