机器学习
Han_Kin
嘻嘻哈哈每一天,2016,加油!
展开
-
sklearn.model_selection.train_test_split随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split一般形式:tra转载 2017-08-25 17:23:57 · 865 阅读 · 0 评论 -
Python执行时间的计算方法
首先说一下我遇到的坑,生产上遇到的问题,我调度Python脚本执行并监控这个进程,python脚本运行时间远远大于python脚本中自己统计的程序执行时间。 监控python脚本执行的时间是36个小时,而python脚本中统计自己执行的时间是4个小时左右。 问题暴漏之后首先想到的是Linux出了问题,查找各种日志未发现有何异常。 然后是想到python中用到的py2neo的写数据异步,转载 2017-08-31 18:45:51 · 560 阅读 · 0 评论 -
Linux下的文件权限
第六章:linux的文件权限与目录配置6.1 用户与用户组基本知识不解释,记录用户身份和用户组记录的文件用户的信息记录在/etc/password个人密码记录在/etc/shadow组名记录在/etc/group6.2文件权限的概念 这部分比较有看头:察看文件的命令:ls -al 有这样的结果: sspeng@sspeng-desktop:~$ ls -al转载 2017-08-31 16:49:43 · 695 阅读 · 0 评论 -
归一化方法(Normalization Method)
数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待。下面我描述几种常见的Normalization Method,并提供相应的Python实现(其实很简单):1、(0,转载 2017-08-30 16:31:55 · 13423 阅读 · 0 评论 -
Pandas入门—Series和DataFrame
Series类型没有直接的to_excel方法(out.to_excel('data2.xlsx','Sheet1')),所以是不能直接写入到文件中的,解决办法:将Series转化为DataFrame,然后再写入问价中即可。Series.to_frame(name=None)Pandas入门—Series和DataFrame概述:pandas含有使数据分析工作变得更快更简单的高级数据结转载 2017-08-30 16:07:39 · 1377 阅读 · 0 评论 -
Python实现进度条总结
找了一半天,始终没有找到自己满意的进度条。皇天不负有心人,找到了以为博主总结的进度条。我的python是3.6,windows10系统,在Spyder运行成功!先说一下文本系统的控制符:\r: 将光标移动到当前行的首位而不换行;\n: 将光标移动到下一行,并不移动到首位;\r\n: 将光标移动到下一行首位。 环境:root@ubuntu16:/alex/py/j转载 2017-08-30 15:34:48 · 8953 阅读 · 0 评论 -
全文搜索引擎 Elasticsearch 入门教程
全文搜索引擎 Elasticsearch 入门教程作者: 阮一峰日期: 2017年8月17日全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。转载 2017-08-24 11:46:18 · 486 阅读 · 0 评论 -
Python机器学习应用-北京理工大学 - 【第二周】有监督学习
本周课程导学监督学习的目标利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。分类:当输出是离散的,学习任务为分类任务。回归:当输出是连续的,学习任务为回归任务。分类学习• 输入:一组有标签的训练数据(也称观察和评估),标签表明了这些数据(观察)的所署类别。• 输出:分类模型根据这些训练数据,训练自己的模型参数,学习出一个适合这组数据的分类转载 2017-08-24 10:10:04 · 3660 阅读 · 2 评论 -
Octave语法
Octave语法向量分号:分割行空格或逗号:分割列创建与访问行向量空格或逗号分割>> v = [1 2 3] % 等效:v = [1, 2, 3]v = 1 2 3 >> v(2) % 只有一行,所以指定就是列ans = 2列向量分号分割转载 2017-08-27 20:45:34 · 579 阅读 · 0 评论 -
Anaconda使用总结
Anaconda使用总结序Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打包,方便pythoners直接使用,此外,还有virtualenv、pyenv等工具管转载 2017-08-27 17:21:31 · 518 阅读 · 0 评论 -
使用sklearn做单机特征工程
使用sklearn做单机特征工程目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter转载 2017-08-27 10:40:27 · 416 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习常见算法分类汇总原文出处: IT经理网 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式转载 2017-08-26 11:35:21 · 412 阅读 · 0 评论 -
机器学习中的分类算法
机器学习中的分类算法机器学习,模式识别中很重要的一环,就是分类,因为计算机其实无法深层次地理解文字图片目标的意思,只能回答是或者不是。当然现在卷积神经网络正在希望计算机能够看懂东西,这次我们先来看一些一些简单的分类算法。朴素贝叶斯说到朴素贝叶斯,先说一下贝叶斯定理,首先要解释的就是条件概率,非常简单,P(A|B)表示事件B发生的情况下,事件A发生的概率, P转载 2017-08-26 11:33:36 · 743 阅读 · 0 评论 -
有监督学习、无监督学习、分类、聚类、回归等概念
有监督学习、无监督学习、分类、聚类、回归等概念这篇是很久之前写的了.. 后来才开始上 Andrew Ng 老师的 MOOC,发现其实老师讲得很好了,建议有时间看看他的《Machina Learning》,只看第一节课就可以很了解这些概念了。主要内容有监督学习、无监督学习、分类、聚类、回归等概念有监督学习、无监督学习、分类、聚类、回归等概念这里举一个给转载 2017-08-26 11:30:33 · 5952 阅读 · 0 评论 -
用python做数据分析4|pandas库介绍之DataFrame基本操作
用python做数据分析4|pandas库介绍之DataFrame基本操作怎样删除list中空字符?最简单的方法:new_list = [ x for x in li if x != '' ]今天是5.1号。这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的数据a如下所示: a b cone转载 2017-08-26 11:23:08 · 899 阅读 · 0 评论 -
DataFrame 数据合并,连接(merge,join,concat)
作者:lianghc连接:http://blog.csdn.net/zutsoft/article/details/51498026merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下[python] view plain copy pri转载 2017-08-25 17:27:10 · 8395 阅读 · 0 评论 -
在windows10下利用myeclipse运行hadoop
Windows10环境下配置Hadoop具体可以参考马士兵老师的官网:http://www.mashibing.com下载代码资源包下载hadoop-2.7.3安装包,可以去官网下载 下载winutils等文件 bin目录下载地址 在windows下配置Hadoop-2.7.3的环境变量。HADOOP_HOME=D:/hadoop-2.7.3path = %HADOOP_HOME原创 2017-09-01 13:30:32 · 880 阅读 · 0 评论