python
文章平均质量分 55
fgfvmiygse
这个作者很懒,什么都没留下…
展开
-
python中pandas的判断
1、在Python中,创建一个变量会给这个变量分配三种属性: id ,代表该变量在内存中的地址; type,代表该变量的类型; value,该变量的值; is 关键字用来判断变量的身份,即 id; == 用来判断变量的值是否相等,即value; - is 同,则value一定相等; - value同,则is不一定相等;2、像这种的经过判断两个变量中的任一变量是否完全相同得...原创 2018-03-17 15:36:49 · 4905 阅读 · 0 评论 -
scikit-learn 0.18 中文文档
ApacheCN cwiki 地址为 scikit-learn 0.18 中文文档 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030181原创 2018-05-03 19:16:39 · 316 阅读 · 0 评论 -
python中的nunique
>>> import pandas as pd>>> df=pd.DataFrame({'A':[0,1,2],'B':[4,5,6]})>>> df.nunique()A 3B 3dtype: int64>>> df=pd.DataFrame({'A':[0,1,2],'B':[0,5,6]})&g...原创 2018-05-17 13:57:02 · 19983 阅读 · 0 评论 -
预处理
当我们拿到一批原始的数据首先要明确有多少特征,哪些是连续的,哪些是类别的。检查有没有缺失值,对缺失的特征选择恰当方式进行弥补,是数据完整。对连续的数值型特征进行标准化,是的均值为0,方差为1.对类别型的特征进行one-hot编码。将需要转换成类别型数据的连续型数据进行二值化。为防止过拟合或者其他原因,选择是否要将数据进行正则化。数据概览:info(),describe()读取一个数据文件之后,可以...原创 2018-05-12 17:22:30 · 291 阅读 · 0 评论 -
读取data文件
在读取.data文件的时候,只能通过 with open(' ','r') as f: 进行读取,最后再保存为csv文件。该过程中通常是1、先做a=strip().split('')处理,得到列表,但此时的a[i](i=1,2,...)是str属性, 如‘uid 130’,‘aid 520’,因为split的应用描述就是对字符串做切割2、将上面得到的存入字典,dict[a[0]] = ' ...原创 2018-05-06 15:31:35 · 40938 阅读 · 0 评论 -
判断两个dataframe中的指定列有无重合的数字(对象)
>>> data=pd.merge(data,userfeature,on='uid',how='inner')>>> data.info()<class 'pandas.core.frame.DataFrame'>Index: 0 entriesData columns (total 33 columns):aid ...原创 2018-05-14 21:34:15 · 7131 阅读 · 0 评论 -
NumPy使用手记
转:http://www.cnblogs.com/begtostudy/archive/2010/08/03/1790935.html前面一个NumPy系列基本上是抄书,没有多少具体的内容。最近做实验经常使用NumPy,确实感觉到向量计算的强大。这个系列开始,我记录在使用NumPy使用中的一些具体的技巧和注意事项。 1) 巧用 where函数 where函数是numpy的内置,也是一个非常有用...转载 2018-05-26 14:13:15 · 213 阅读 · 0 评论 -
python曲线拟合
转:http://blog.sina.com.cn/s/blog_aed5bd1d0102vid7.html做完插值,自然就要学习拟合了。参考http://wiki.klniu.com/wiki/Python/Modules/Scipy。1.多项式拟合范例:import matplotlib.pyplot as pltimport numpy as np#潘海东,2014/1/13x = np.a...转载 2018-05-26 19:20:34 · 9257 阅读 · 0 评论 -
深度学习结合SLAM的研究思路/成果整理之(一)使用深度学习方法替换SLAM中的模块
转:https://blog.csdn.net/u010821666/article/details/78749356整理了部分近两年深度学习结合SLAM的一些研究成果(参考知乎帖子https://www.zhihu.com/question/66006923 和泡泡机器人公众号,附上论文链接和已找到的源代码/数据集链接,大多简单看了一下摘要。仅为自己学习所用,确实翻译得很烂…………1. 深度学习...转载 2018-07-02 12:34:20 · 1469 阅读 · 0 评论 -
想成为深度学习的高手必须要懂哪些知识?
转http://www.elecfans.com/rengongzhineng/603994.html深度学习本质上是深层的人工神经网络,它不是一项孤立的技术,而是数学、统计机器学习、计算机科学和人工神经网络等多个领域的综合。深度学习的理解,离不开本科数学中最为基础的数学分析(高等数学)、线性代数、概率论和凸优化;深度学习技术的掌握,更离不开以编程为核心的动手实践。没有扎实的数学和计算机基础做支撑...转载 2018-06-28 22:08:21 · 5286 阅读 · 0 评论 -
谈谈深度学习中的 Batch_Size
转:深度机器学习中的batch的大小对学习效果有何影响? - 程引的回答 - 知乎https://www.zhihu.com/question/32673260/answer/71137399谈谈深度学习中的 Batch_SizeBatch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下...转载 2018-07-05 23:07:44 · 532 阅读 · 0 评论 -
使用sklearn进行集成学习——实践
转:http://www.cnblogs.com/jasonfreak/p/5720137.html目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心的坐标下降法 2.3.1 Random Forest调参案例:Digit Recog...转载 2018-05-03 23:39:16 · 194 阅读 · 0 评论 -
使用sklearn进行集成学习——理论
转:http://www.cnblogs.com/jasonfreak/p/5657196.html目录1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结4 Gradient Boosting 4.1 拟合残差 ...转载 2018-05-03 23:38:24 · 179 阅读 · 0 评论 -
机器学习实战的一些关于Python的记录
模块(.py)可以包含类 模块里面可以随便定义东西,类,函数,变量包就是含有多个模块的东西,一个模块有了_init_就可以看做包,当然包也可以有子包。#############################python有三宝,type, help, dir而discribe()只是pandas 的dataframe和series中的一个属性######################...原创 2018-03-27 23:13:21 · 171 阅读 · 0 评论 -
enumerate()
enumerate()说明enumerate是python的内置函数enumerate在字典上是枚举、列举的意思对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate将其组成一个索引序列,利用它可以同时获得索引和值enumerate多用于在for循环中得到计数enumerate()使用如果对一个列表,既要遍历索引又要遍历元素时,首先可以这样写:list1 = ["...转载 2018-04-21 23:14:59 · 307 阅读 · 0 评论 -
用python做数据分析pandas库介绍之DataFrame基本操作
来源:https://www.cnblogs.com/zuizui1204/p/6423069.html怎样删除list中空字符?最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的数据a如下所示: a b cone 4 1 1...转载 2018-04-22 14:05:59 · 527 阅读 · 0 评论 -
sklearn一些小记录
model的属性model.score(data_train,target_train)#是根据data_train学到的模型预测出来跟训练集原先的target做比较计算得分normalizationfrom sklearn import preprocessingpreprocessing.scale(a)preprocessing.minmax_scale(a,feature_range=(-...原创 2018-05-02 20:20:12 · 494 阅读 · 0 评论 -
python预处理常用方法与代码
转载自:http://2hwp.com/2016/02/03/data-preprocessing/常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减...转载 2018-05-03 12:04:52 · 1633 阅读 · 0 评论 -
OnehotEncoder在实际应用中的理解
独热编码(OnehotEncoder)就是把数据变成(1,0,0,...,0),(0,1,0,0,...,0),该特征属性有多少类别就有多少维类别编码(LabelEncoder)就是把数据变成连续的数值型变量,比如原先有“American”“Japanese”“Chinese”这些的,换成(0,1,2)为什么在特征工程经常用Onehotencoder而很少用Labelencoder是因为后者所生成...原创 2018-05-03 17:19:03 · 5849 阅读 · 0 评论 -
python语法学习之函数、类、模块
转载:https://www.cnblogs.com/wjoyxt/p/4549594.htmlPython中通过使用类(class)和对象(object)来实现面向对象(object-oriented programming,简称OOP)的编程。 面向对象编程的最主要目的是提高程序的重复使用性,这和函数的目的相类似。 一:函数 如果你需要在程序中重用代码,---------定义函数。 def ...转载 2018-05-03 23:30:12 · 158 阅读 · 0 评论 -
使用sklearn做单机特征工程
转:http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filt...转载 2018-05-03 23:35:24 · 101 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
转:http://www.cnblogs.com/jasonfreak/p/5448462.html目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据...转载 2018-05-03 23:36:14 · 239 阅读 · 0 评论 -
使用Python进行描述性统计
转:http://www.cnblogs.com/jasonfreak/p/5441512.html目录1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值、中位数、众数) 2.3 发散程度(极差,方差、标准差、变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Mat...转载 2018-05-03 23:37:28 · 554 阅读 · 0 评论 -
记一次画柱状图的经历
许久没用python,心血来潮参加了个比赛,下载了数据,想分析分析一番,怎知出现各种错误,连python中的数据类型都忘了哎。原意是想利用柱状图看看标准化和归一化之后的数据对数据接下来的处理有什么影响的import pandas as pdimport matplotlib.pyplot as pltdata=pd.read_csv("D:/data/train.csv")a=da...原创 2018-08-06 16:35:02 · 5711 阅读 · 0 评论