自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一念执着

种一棵树最好的时间是十年前,其次是现在

  • 博客(32)
  • 收藏
  • 关注

原创 python连接hive总结

开篇```工作中需要,在本地使用python通过远程连接hive,去读取hive的一些表中大量的数据。进行一些数据预处理,然后测试模型的精准度。``````python连接hive,很艰难,很麻烦,在初期去安装一些相关类库的时候,就会出现大量的问题。后期连接成功之后,也出现了连接不稳定的情况,很多时候,在读取文件的时候不能够连续读取。而且,读取效率极慢,慢出了一个天际。````...

2019-06-05 18:21:08 36015 10

原创 秒级数据转化为分钟级数据sql编写

前言利用python读取hive,将hive中秒级数据转化为以10分钟为间隔的数据,除时间与设备id外所有字段的值求平均值。代码连接hive,创建连接通道,并且得到连接通道的钥匙(句柄)conn = connect(host='地址', port=10000, auth_mechanism='PLAIN', user='用户名',database='存储空间')cursor = c...

2019-12-07 11:09:47 1534 1

原创 话谈实际工作中的数据分析

篇始不知不觉,到新的公司任数据分析师一职已有大半年的时光,在段时光中,无可避免的犯了很多错误,亦得到了许多收获。今天,对于在职中的一些过错与收获进行总结,以期在日后的工作与成长过程中,能够更加的顺利。谈谈数据分析工作需具备能力python 与 Jupyter数据整理、数据清洗、数据绘图、数据建模一般用于数据量大或批量处理或数据内容复杂的时候Excel 与 csvExce...

2019-11-27 18:08:08 1033

转载 如何提高训练模型准确率

如何提高训练模型准确率原文链接:https://blog.csdn.net/Winteeena/article/details/78997696 提升一个模型的表现有时很困难,尝试所有曾学习过的策略和算法,但模型正确率并没有改善。这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学家的差距所在。本文将分享 8 个经过证实的方法,使用这些方法可以建立稳健的机器学习模型。导语模...

2019-07-26 18:02:15 5996

原创 numpy、pandas实用总结(MSE、RMSE、r2)

numpy用途之计算均方误差和均方根误差python工作中,处理数据的程序日志输出python工作中,统计程序运行时间

2019-07-25 15:15:23 37127 3

原创 numpy、pandas实用总结(3种数据合并)

前言将俩个或者多个DataFrame合并在一起,这样的操作在日常工作中是极为频繁的一件事情,目前,我所知的有四种将DataFrame合并在一起 的方法:concat,在Series中也可以使用mergejoinconcat合并这种合并实际上是直接将俩个DataFrame简单粗暴的合在了一起,可以横着合并,也可以竖着合并,5个重要参数axis: 指定连接轴,默认为0jo...

2019-07-24 17:23:36 745

原创 numpy、pandas实用总结(遍历、重复值、缺失值、异常值、数据过滤、数据清洗)

前言最近工作中经常实用pandas,然而,却发现自己对于pandas的掌握并没有想象中的好,很多pandas的函数和用法,自己都不是特别的熟练,特此总结一下最近经常会使用的pandas用途和函数,增强自己的记忆。pandas用途之DataFrame遍历pandas用途之DataFrame排序pandas用途之DataFrame与Excel、csv操作pandas用途之DataFram...

2019-07-24 16:06:30 3425

原创 python绘制热力图

前言工作中,上司要求对于一些数据以热力图的形式进行显示出来,能够更加直观的对于不同的数据继续对比查看.查看网上各大博客, 关于python绘制热力图的博客文章有很多,但是发觉绝大多数都是直接在中国地图或者世界地图上甚至于是 某个城市的地图上进行绘制热力图,也就是说,热力图的底图是无法改变的,比较有印象的四种方法,如下:利用folium 来绘制https://blog.csdn.net/o...

2019-07-23 17:24:08 10694 1

原创 机器学习各类算法思路总结五(Bagging、boosting)

BaggingBagging方法也称为汇聚法(Bootstrap Aggregating),属于集成学习中 平均方法中的一种Bagging的方法过程,在原始的数据集中进行随机抽样(可以放回抽样,也可以不放回抽样)使用得到的随机子集来训练评估器,该过程重复n次,每次训练得到一个评估器,最终聚合每个单独的评估器预测。预测会使用多数投票(分类)或者求均值(回归)的方式来统计最终的结果(平均方法...

2019-04-24 17:22:43 1931

原创 机器学习各类算法思路总结四(决策树与随机森林、集成学习了解)

决策树简单来说,决策树,就是将数据集转化为一棵树,按照这棵树的规则,对于样本进行归类。决策树是一种非参数监督学习方法,用于分类与回归。 目标是创建一个模型,从数据特征中进行学习,进而推断出的简单决策规则,用来预测目标变量的值。决策树是一种树形结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并...

2019-04-23 15:35:12 848

原创 机器学习各类算法思路总结三(逻辑回归与KNN、KD树)

逻辑回归首先,要明确的是,逻辑回归并不是监督学习中的回归类算法,是属于监督学习中的分类型算法逻辑回归,不但可以能够进行分类,而且还能够获取属于该类别的概率监督学习的思想,通俗的讲,就是为所有的样本,一一进行打分,然后设置一个阈值,按照按照阈值为分隔点,将样本分隔为不同的类别(达到阈值的一类,不达到的一类)而,为样本打分的这一步,实际上和线性回归算法是一致的,都是利用最大似然估计,得到所有...

2019-04-22 11:04:02 1047

原创 机器学习各类算法思路总结二(梯度下降与数据标准化)

梯度下降求梯度,实际上,就是求导数,函数在某一个点处求偏导。当函数是一维函数的时候,梯度就是导数。梯度下降,实际上就是在比喻下山的过程。一个人被困在了山上,要下山,从山坡往山的最低点处走,但是山中的浓雾很大,路径无法确定,所以就必须利用自己周围的信息去找出下山的路径,这个时候,就可以利用梯度下降的知识来帮助自己下山。具体的说,就是以自己当前的路径为准,寻找位置最陡峭的地方,然后朝着山的高度下...

2019-04-17 17:56:53 840

原创 机器学习各类算法思路总结一(监督-回归部分)

机器学习的分类监督学习分类回归无监督学习聚类降维半监督学习强化学习机器学习(监督)的基本概念机器学习,就是让电脑模仿人进行学习人在做任何事,也需要学习,比如说考试,需要看文档或者查资料,再或者有人传授。那么这个人在文档中、资料中、听课中,得到一个一个个的问题,以及这些问题所对应的正确答案,对自己进行训练。训练完毕之后,人就会从里边得到一些规则,道理。然后,人...

2019-04-14 16:04:34 564

原创 线性回归算法思路总结(详细)

机器学习的分类(下边都是监督学习)监督学习分类回归无监督学习聚类降维半监督学习强化学习机器学习(监督)的基本概念机器学习,就是让电脑模仿人进行学习人在做任何事,也需要学习,比如说考试,需要看文档或者查资料,再或者有人传授。那么这个人在文档中、资料中、听课中,得到一个一个个的问题,以及这些问题所对应的正确答案,对自己进行训练。训练完毕之后,人就会从里边得到一些...

2019-03-27 20:06:02 9229 1

转载 【机器学习】神经网络介绍【转】

【深度学习】神经网络介绍   1 神经元   2 激活函数   3 感知机与多层网络   4 误差反向传播 参考:周志华《机器学习》    ...

2019-03-27 16:58:57 690

转载 机器学习-样本不均衡现象

转载自:http://blog.csdn.net/lujiandong1/article/details/52658675这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最...

2019-03-27 14:33:24 1585

原创 机器学习-算法决策树学习笔记(详解)

决策树的概念决策树是一种非参数的监督学习方法,既可以用于分类,也可以用于回归。决策树的目标是创建一个模型,从数据特征中进行学习,进而推断出简单决策规则,用来预测目标变量的值决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。# 个人理解就是按照一定的决策树构建规则来构建一个决策树,将数据集中的各个属性...

2019-03-26 15:24:48 823 1

转载 Linux常用指令(精简)

系统常用控制命令man:查看命令的帮助信息,如man ls可以查看ls指令的使用说明。 echo:在终端输出字符串以及变量的值,如echo my path:$PATH将会以‘my path:’开头,后接系统环境变量。 date:查看系统时间。 reboot/poweroff:重启/关闭系统。 wge...

2019-03-25 22:20:33 534

转载 Redis数据库看这一篇文章就够了

https://www.tuicool.com/articles/aIvyyii前言redis作为nosql家族中非常热门的一员,也是被大型互联网公司所青睐,无论你是开发、测试或者运维,学习掌握它总会为你的职业生涯增色添彩。当然,你或多或少已经了解redis,但是你是否了解其中的某些细节,本片文章将详细...

2019-03-25 22:18:13 387

转载 机器学习十大经典算法入门【转】

一,SVM(Support Vector Machine)支持向量机 a. SVM算法是介于简单算法和神经网络之间的最好的算法。 b. 只通过几个支持向量就确定了超平面,说明它不在乎细枝末节,所以不容易过拟合,但不能确保一定不会过拟合。可以处理复杂的非线性问题。 c. 高斯核函数...

2019-03-24 16:27:51 272

转载 机器学习,深度学习等概念区别【转】

1、人工智能->机器学习->深度学习  注:->包含关系2、机器学习领域:    模式识别=机器学习    数据挖掘=机器学习+数据库    统计学习=机器学习    计算机视觉=图像处理+机器学习...

2019-03-24 16:25:13 357

原创 学习笔记-数据分析numpy的使用(精简)

Numpy的简介NumPy,是科学计算基础的一个库,提供了大量关于科学计算的相关功能.例如,线性变换,数据统计,随机数生成等。其提供的最核心的类型为多维数组类型(ndarray).导入Numpy包import numpy as npndarray数组的创建# 使用 np.array来创建数组np.array([1, 2, 3])np.array([[1, 2, 3], [...

2019-03-23 10:20:39 305

原创 MongoDB基础知识点回顾(最最基础的增删改查,和sql对比)

# 以管理员身份打开cmd命令窗口,切换到 安装目录:MongoDB\Server\3.6\bin 目录下(如果配置了环境变量就不需要了)# 以下默认为在这个路径下,或者配置了环境变量,直接到cmd窗口增删改查前,基础命令启动服务# 启动服务net start mongodb# 停止服务net start mongodb连接mongodbmongo 【远程主机ip或DNS:...

2019-03-21 22:17:26 169

转载 机器学习面试常用算法知识点梳理总结(转)

原文地址:http://www.cnblogs.com/tornadomeet/p/3395593.html   前言:  找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其...

2019-03-21 10:02:32 294

转载 机器学习入门好文,强烈推荐(转载)

转自 飞鸟各投林史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷让我们从机器学习谈起导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。&nbsp...

2019-03-21 09:56:33 462

转载 十种常用机器学习算法入门

弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分。以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术。下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力。图1 智能手机上的相关应用传统的机器学习算法包括决策树、聚类、贝叶斯分类、支...

2019-03-21 09:50:30 164

原创 python基础练习(猜拳游戏、扎金花游戏、购物小程序)

需求分析:* 使用面向对象和python的基础语法,运用简单的逻辑处理实现猜拳游戏* 要求游戏可以多次玩耍* 要求统计分数* 要求可以选择角色# 玩家自己的类,class Owns(): chose = {1: "石头", 2: "剪刀", 3: "布"} def __init__(self, name, race): self....

2019-03-21 09:16:01 1635

原创 mysql基础知识点回顾(精简,不包含存储过程等)

DCL 数据控制语言# 创建用户:create user '用户名'@'host' identified by '密码'# 授权:grant 权限(insert,delete,update,select,create | all)on 数据库名.数据表 to 用户名@‘host’# 收回权限revoke 权限 on 数据库名.数据表 from 用户名@‘host’DDL 数据库...

2019-03-18 23:16:52 151

原创 matplotlib 常用操作(精简)

前言也是刚刚接触这块,为了方便记忆,找出认为重要的精简的总结了一下,如有错误请指出,谢谢绘图前设置绘图前第一步,导入相关包# 就我目前来说,只用在 设置全局的字体,字号,字体颜色import matplotlib as mpl# 各种图形的库import matplotlib.pyplot as plt# 导入俩个库,具有三个常用的数组(ndarray,SeriesDataF...

2019-03-17 23:16:46 391

原创 经典的python基础练习

假设市面上有4种面值 硬币,20元、10元、5元、1元。输入一个钱数,能够使用最少的硬币凑成这个钱数。def mon(money): ss = [0,0,0,0] coinKinds = [20, 10, 5, 1] for i in range(len(coinKinds)): if money >= coinKinds[i]: ...

2019-03-15 17:29:21 320

转载 最大似然估计详解(转)

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率 用于在已知一些参数...

2019-03-14 23:06:09 828

原创 python基础练习--《人力资源管理员工管理》

python新手入门练习运用python的基础数据结构编写《人力资源管理员工管理》初学python,入门练习,留些记录,方便以后查看,如有错误,请诸位大神指点,谢谢需求分析:要求使用python的最基础的数据结构(字典、元组、列表、字符串等)作为数据存储要求小程序可以实现基本的添加、删除、修改、查询等功能(一个程序最基本的增删改查)要求小程序在实现的过程中,有防止误操作的机制要求小...

2018-12-04 14:02:19 5192 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除