
机器学习
柚子君.
这个作者很懒,什么都没留下…
展开
-
机器学习之sk-learn库
1.1 总体说明Scikit-Learn是基于Python的开源机器学习模块,最早由David Cournapeau在2007年发起的,目前也是由社区志愿者进行维护。官方网站是:http://scikit-learn.org/stable/,在上面可以找到相关的资源、模块下载、文档、例程等。Scikit-Learn的安装需要numpy、scipy、matplotlib等模块,Windows...原创 2018-10-18 11:15:57 · 988 阅读 · 0 评论 -
机器学习之Pandas库
1.1 pandas库总体说明Pandas基于NumPy、SciPy补充的大量数据操作功能,能实现统计、分组、排序、透视表,可以代替Excel的绝大部分功能Pandas主要有2种重要数据结构:Series、DataFrame(一维序列,二维表)。数据类型的转换需要用到pd.Series/DataFrame.(1)Series可以是一个样本的所有观测值或一个样本的某一属性的观测值...原创 2018-10-18 00:07:57 · 492 阅读 · 0 评论 -
机器学习之Scipy库
1.1 总体说明SciPy是一款方便、易于使用、专为科学和工程设计的Python工具包。它包括统计、优化、涉及线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等众多数学包。1.2 代表性函数使用介绍1.最优化(1)数据建模和拟合SciPy函数curve_fit使用基于卡方的方法进行线性回归分析。下面,首先使用f(x)=ax+b生成带有噪声的数据,然后使用curve_f...原创 2018-10-17 21:31:01 · 15327 阅读 · 0 评论 -
机器学习之NumPy
1.1 总体说明NumPy(Numeric Python)是Python的开源数值计算扩展,它可以用来存储和管理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多。NumPy常常被评价为将Python变成免费且强大的Matlab。NumPy包括了强大的N维数组,比较成熟的函数库,用于整合C/C++和Fortran代码的工具包,以及实用的线性代...原创 2018-10-17 15:43:50 · 563 阅读 · 0 评论 -
[八]机器学习之隐马尔科夫模型HMM
8.1 目标任务1.用jieba库实现中文词性标注2.用SnoeNLP库实现中文词性标注8.2 实验数据novel.txt8.3 实验过程8.3.1 实验准备1.安装jieba库:pip install jiebajieba库繁体分词和自定义词典,它支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析全模式,把句子中所有的可以成词的词语...原创 2018-10-17 10:08:11 · 487 阅读 · 0 评论 -
[七]机器学习之LDA
7.1 目标i任务1.熟悉LDA在自然语言处理中的应用2.掌握python-lda库3.测试LDA模型训练中,不同参数的设置对结果产生的影响7.2 实验环境1.python2.7、Numpy、Sklearn2.Python-jieba:结巴分词,用于对语料文件进行分词处理3.python-lda:基于Gibbs抽样的LDA模型的python实现。下载地址:http://...原创 2018-10-17 00:08:40 · 815 阅读 · 0 评论 -
[六]机器学习之EM算法
6.1 实验概要通过EM算法解决部分观测数据的参数估计问题,使用sklearn提供的EM模块和高斯混合模型数据集,实验EM算法的实际效果6.2 实验输入描述本次实验使用仿真数据集,该数据集有300条数据构成,每个样本为3维。假定该数据由两个高斯分布混合得到。 6.3 实验步骤(1)手动实现# !/usr/bin/python# -*- coding:utf-8 ...原创 2018-10-15 00:02:04 · 1664 阅读 · 0 评论 -
[五]机器学习之聚类
5.1 实验概要通过K-Mean,谱聚类,DBSCAN三种算法解决基本的聚类问题,使用sklearn提供的聚类模块和鸢尾花数据集,对聚类效果进行横向比较。5.2 实验输入描述数据集:鸢尾花数据集,详情见[机器学习之回归]的Logistic回归实验5.3 实验步骤导入数据集:from sklearn import datasetsiris = datasets.load_...原创 2018-10-14 21:08:10 · 488 阅读 · 0 评论 -
[四]机器学习之支持向量机SVM
4.1 实验数据本数据集来源于UCI的Adult数据集,并对其进行处理得到的。数据集下载地址:http://archive.ics.uci.edu/ml/datasets/Adult。本实验使用LIBSVM包对该数据进行分类。原始数据集每条数据有14个特征,分别为age,workclass,fnlwgt(final weight),education,education-num,mar...原创 2018-10-14 19:13:36 · 4245 阅读 · 3 评论 -
[三]机器学习之决策树与随机森林
3.1 目标任务1.学习决策树和随机森林的原理、特性2.学习编写构造决策树的python代码3.学习使用sklearn训练决策树和随机森林,并使用工具进行决策树可视化3.2 实验数据数据集:鸢尾花数据集,详情见[机器学习之回归]的Logistic回归实验3.3 决策树特性和使用3.3.1 决策树的特性决策树(Decision Tree)是一种简单但广泛使用的分类器,...原创 2018-10-14 17:18:30 · 1607 阅读 · 0 评论 -
[二]机器学习之回归
2.1 线性回归2.1.1 实验数据 1.数据描述数据来自出版书籍《An Introduction to Statistical Learning with Applications in R》(Springer,2013),作者Gareth James,Daniela Witten,Trevor Hastie and Robert Tibshirani。共200条数据,每条数据...原创 2018-10-14 11:30:56 · 1492 阅读 · 0 评论 -
[一]Anaconda、PyCharm的下载、安装及配置
目标任务:1.安装Python解析器2.配置环境3.安装PyCharm编辑环境IDE1.1软件包的下载1.1.1 Anaconda的下载Anaconda作为出色的编辑环境,除了提供Python解析器外,还集成了Python科学计算的各种包。下载地址为:http://www.continuum.io/downloads 或 https://www.anaconda.com/d...原创 2018-10-13 11:26:34 · 1420 阅读 · 0 评论