琦度
码龄7年
关注
提问 私信
  • 博客:108,590
    动态:2
    108,592
    总访问量
  • 20
    原创
  • 1,398,793
    排名
  • 14
    粉丝
  • 0
    铁粉

个人简介:公众号:「琦度」

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2018-03-22
博客简介:

weixin_41884148的博客

查看详细资料
个人成就
  • 获得67次点赞
  • 内容获得8次评论
  • 获得237次收藏
  • 代码片获得185次分享
创作历程
  • 8篇
    2020年
  • 6篇
    2019年
  • 7篇
    2018年
成就勋章
TA的专栏
  • 大数据
    1篇
  • 数据分析
    6篇
  • linux
    1篇
  • python
    11篇
  • 数据库相关
    4篇
  • 数据挖掘
    2篇
  • 认知
    1篇
兴趣领域 设置
  • 大数据
    hadoopspark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Mac版hadoop,Spark,Hbase的伪分布式的安装(全网最全)

注意:如果你利用Mac从事开发工作,请务必去了解下Homebrew,他会给你带来很大的便利,下文会细说但是新版的Homebrew有个大问题,他在帮你装软件时会安装最新版,并且大部分软件不支持版本选择,所以要有取舍Hadoop3.X和Hadoop2.X有较多不同,所以选择目前的额主流Hadoop2.X,大数据分布式搭建尤其 注意版本兼容问题在搭建前要先了解Hadoop和Spark的相关基础知识,*** Hbase如果你不需要的话可以不用安装**-如果你觉得网页麻烦,想要良好的阅读体验这有PD..
原创
发布博客 2020.06.14 ·
714 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

利用Python给mysql数据库表格批量添加注释

原理:利用sql的concat来组合表格的基本信息先利用sql进行表格的信息查询来制作执行语句(网上轮子):SELECT concat( 'alter table ', table_schema, '.', table_name, ' modify column ', column_name, ' ', column_type, ' ', if(is_nullable = 'YES', ' ', 'not null '),
原创
发布博客 2020.06.09 ·
1279 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Pandas去掉数字千分位的逗号的三种方法

问题描述:在日常的数据清洗过程中,我们频繁去处理一些数字,比如说日志,或者说自动生成的报表,这些地方总有着千分位的逗号,这对于数据的后续运算和入库都有着不小的影响,这边将采用三种方法教大家超便捷的处理千分位逗号的问题数据准备import pandas as pda = [[['22,900', '7,100'], ['3,400', '-0.03'], [ '5', '...
原创
发布博客 2020.03.03 ·
15412 阅读 ·
23 点赞 ·
8 评论 ·
74 收藏

数据分析常用方法汇总

写在前面实际的数据分析过程中,其实并不简简单单的使用一些数据技术,还有很多成熟的方法论值得我们去借鉴,当然这些都是企业长期发展过程中进行的总结。之前的文章也说过,数据分析师并不是一个纯粹的程序员,相信我当你只会编程的时候,在找数据分析工作时十之八九是以失败告终。说白了,现在的企业更需要的是业务上的熟练,所以对于一个专注于数据的公号,今天我就从电商的角度跟大家罗列下常用的方法论:其实很多...
原创
发布博客 2020.02.22 ·
965 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

利用pandas处理缺失数据

工作中少不了各种缺失数据,对其进行处理的方式也可以是各有不同概览dropna : 对缺失数据进行过滤fillna :以特定的方式补充缺失数据isnull :返回布尔对象notnull: isnull的否定1、删除缺失数据dropna()import pandas as pdimport numpy as npdata = pd.DataFrame([[2.3, ...
原创
发布博客 2020.02.16 ·
395 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用pandas对列进行筛选&利用索引/多列值重新排序

实际工作中我们可能遇到,挑选出表格中每一列中的最大值最小值组成新的DataFrame,或者按照索引(日期)、某些列的值进行重新排序,由于内容不多,我就合并在一起写下来给大家参考对列值进行自定义规则筛选1、数据准备import pandas as pdimport numpy as npframe = pd.DataFrame(np.random.randn(4, 3), c...
原创
发布博客 2020.02.15 ·
848 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

利用pandas调换列的顺序并且删除指定行/列

如果你做数据分析的工作,那么相信我Pandas是你离不开的模块,事实证明它也没有让我们失望,所以将重点记录一些常用方法调换列顺序的l两种方法1、数据准备import pandas as pddata = {'state': ['O', 'i', 'N', 'd'], 'year': [2000, 2001, 2002, 2003], 'po...
原创
发布博客 2020.02.14 ·
1653 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

最全Ndarray,DataFrame,List之间的相互转化方法总结

可以说这些方法在实际的工作中用的是相当的频繁,我在网上并没有搜索到全面式的总结,当然还有字典(dict)的转化,我会在下一篇博客中总结出来1、 数据准备import pandas as pdimport numpy as npdata = np.array([[1,5,8],[3,6,4],[7,5,1]])df = pd.DataFrame([4,48,5,9])2、 ...
原创
发布博客 2020.02.12 ·
2041 阅读 ·
2 点赞 ·
0 评论 ·
16 收藏

Python中pymysql和sqlalchemy在导入数据库的各自应用场合

有关数据分析的文章,都会默认大家会使用pandas(基本方法的应用),所以涉及到pandas的东西不会赘述来到Python3,我们知道很多人在将数据导入Mysql数据库的时候采用的是pymysql,(mysqldb在3.x版本已经弃用)。所以大家的导入流程无外乎这样:构建连接-创建游标-游标检索-构造SQL-执行sql-关闭游标-关闭连接import pymysql# 连接库的操作...
原创
发布博客 2019.06.20 ·
1132 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

mysql数据库中插入数据并进行自动迭代更新

问题我们知道在数据库中保证数据的微信性是十分必要的,这也就是有主键的一个原因,但是数据肯定是需要更新的,当然我们可以按照日期或者其他维度进行数据的永不冲突的更新。但是还有一种情况下需要我们迭代的去更新数据,比如下图主键是ID现在name为“哈哈哈哈”的人年龄要变成99,由于存在主键的原因,你在插入一条数据如果ID相同是没办法插入的,这里就要介绍Mysql的一个特别神奇的功能-ON DU...
原创
发布博客 2019.06.19 ·
2723 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

pandas将多列csv文件读成一列的问题

现在越来越依赖Pandas进行数据的处理,不仅速度快,对于和关系型数据库的对接也十分的友好问题最近在网络上爬取下来的一个CSV文件,在用pandas读取的时候,返回的是一一堆乱码,我们知道这个是编码的问题,代码pd.read_csv(file,engine = 'python',enconding = 'utf8')但是就会出现这种问题:读成了一列!其实这个页面编码的...
原创
发布博客 2019.06.19 ·
8280 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

数据分析师的需要的「听说读写」技能

今天主要来聊聊「数据分析师」这个宏观的岗位,一个很多人和我交流的岗位。其实准确来说,数据分析师并不是程序员,网上有一句话很好的概括了这一职业和程序员的区别:在了解编程之前更重要的是讲好一个故事。先说一下「极端」数据分析师的岗位要求吧:Excel和SQL可以说是我见过最低的岗位要求了,SQL会取数据,Excel完成可视化:对比较为高端的要求就是有额外附加项:机器学习\Hadoop\Spar...
原创
发布博客 2019.03.24 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

如何消除python中的VisibleDeprecationWarning\ DeprecationWarning等类似警告:

我们在写相关代码时总会有一些警告,虽然并不影响结果,但是很影响美观。如果在不急于解决警告的情况下我们可以选择一些方法进行忽略。eg:VisibleDeprecationWarning: boolean index did not match indexed array along dimension 0;DeprecationWarning: This function is depr...
原创
发布博客 2019.03.24 ·
11773 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

.as_matrix()的作用

在我们读取一些excel/csv文件的数据后,在训练模型之前经常要对数据进行数组转化解释含义如下:Convert the frame to its Numpy-array representation.当然很多时候在提取完数据后其自身就是数组形式(<class ‘numpy.ndarray’>),这只是习惯性的谨慎。很多时候取得的数据是DataFrame的形式,这个时候要记得...
原创
发布博客 2019.03.24 ·
36505 阅读 ·
27 点赞 ·
0 评论 ·
63 收藏

python笔记-基础篇面试题(附答案)

本内容首发于公众号(更好的阅读体验):琦度1这是一篇长文,我们都知道网上有很多的面试题,但是大多数没有答案。所以在找到了大量的面试题和知识点之后。我打算整一个专题好好的给大家整理一下。尽量每一题的知识点都和大家解释一下。大家可以看看自己薄弱的地方在什么地方,我推荐看那个编程题和31,33声明:题目来自网上2Python和Java、PHP、C、C#、C++等其他语言...
转载
发布博客 2018.11.09 ·
1940 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

python笔记-基础篇面试题(附答案)

本内容首发于公众号(更好的阅读体验):琦度1这是一篇长文,我们都知道网上有很多的面试题,但是大多数没有答案。所以在找到了大量的面试题和知识点之后。我打算整一个专题好好的给大家整理一下。尽量每一题的知识点都和大家解释一下。大家可以看看自己薄弱的地方在什么地方,我推荐看那个编程题和31,33声明:题目来自网上2Python和Java、PHP、C、C#、C++等其他语言...
转载
发布博客 2018.11.09 ·
1940 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

python实现多目录文件夹及文件的选择性删除

本内容首发于公众号(更好的阅读体验):琦度1在日常的处理数据库中,得到的是海量的数据,这些数据是没办法直接入库使用的,而是经过一系列的流程处理。其中在我接触的一个环节中,存在的大量文件夹和文件的生成,每执行一次就要完全的手动清理一次。抱着重复的工作必然可以用程序来代替。就写了如下一个小工具。2说明:在我们linux系统平台上大多习惯采用linux的命令来进行文件目录的增删的...
原创
发布博客 2018.11.09 ·
921 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Linux虚拟机系统安装详解

本内容首发于公众号:琦度1虚拟机安装其实就是普通软件的安装是一样的,一路“下一步”,但是安装之后还是有些比较难缠的问题,不幸的是我当初基本上都遇到了,幸运的时都一点点的慢慢解决了。不过虚拟机我听说还是很强大的,很多功能我也没有涉及。但是像excel&Word的很多功能我们并不熟悉,但并不影响我们平时的使用对吧。2OK,从我给的资源或者你们网上下载的情况下(没看过前文的...
原创
发布博客 2018.11.09 ·
283 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python2和python3的区别

本内容首发于公众号:琦度从我开始接触的时期开始Python3其实已经在全面的进行推广了,所以在简单的接触Python2之后开始决定开始学Python3,但是简单的说关于2和3的区别我们还是要了解一点比较常用的,至少2.x的版本在改改能让他在3的解释器上面执行。注:接下来的讲解大都只是我在学习过程中所遇到的问题和总结可能并不能全面的覆盖之间的区别,但是对于一些具体的例子来说还是比较受用的...
原创
发布博客 2018.11.09 ·
487 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多