- 博客(21)
- 收藏
- 关注
原创 Mac版hadoop,Spark,Hbase的伪分布式的安装(全网最全)
注意:如果你利用Mac从事开发工作,请务必去了解下Homebrew,他会给你带来很大的便利,下文会细说但是新版的Homebrew有个大问题,他在帮你装软件时会安装最新版,并且大部分软件不支持版本选择,所以要有取舍Hadoop3.X和Hadoop2.X有较多不同,所以选择目前的额主流Hadoop2.X,大数据分布式搭建尤其 注意版本兼容问题在搭建前要先了解Hadoop和Spark的相关基础知识,*** Hbase如果你不需要的话可以不用安装**-如果你觉得网页麻烦,想要良好的阅读体验这有PD..
2020-06-14 21:43:59
739
原创 利用Python给mysql数据库表格批量添加注释
原理:利用sql的concat来组合表格的基本信息先利用sql进行表格的信息查询来制作执行语句(网上轮子):SELECT concat( 'alter table ', table_schema, '.', table_name, ' modify column ', column_name, ' ', column_type, ' ', if(is_nullable = 'YES', ' ', 'not null '),
2020-06-09 14:47:46
1314
原创 Pandas去掉数字千分位的逗号的三种方法
问题描述:在日常的数据清洗过程中,我们频繁去处理一些数字,比如说日志,或者说自动生成的报表,这些地方总有着千分位的逗号,这对于数据的后续运算和入库都有着不小的影响,这边将采用三种方法教大家超便捷的处理千分位逗号的问题数据准备import pandas as pda = [[['22,900', '7,100'], ['3,400', '-0.03'], [ '5', '...
2020-03-03 23:54:09
15527
8
原创 数据分析常用方法汇总
写在前面实际的数据分析过程中,其实并不简简单单的使用一些数据技术,还有很多成熟的方法论值得我们去借鉴,当然这些都是企业长期发展过程中进行的总结。之前的文章也说过,数据分析师并不是一个纯粹的程序员,相信我当你只会编程的时候,在找数据分析工作时十之八九是以失败告终。说白了,现在的企业更需要的是业务上的熟练,所以对于一个专注于数据的公号,今天我就从电商的角度跟大家罗列下常用的方法论:其实很多...
2020-02-22 20:15:12
999
原创 利用pandas处理缺失数据
工作中少不了各种缺失数据,对其进行处理的方式也可以是各有不同概览dropna : 对缺失数据进行过滤fillna :以特定的方式补充缺失数据isnull :返回布尔对象notnull: isnull的否定1、删除缺失数据dropna()import pandas as pdimport numpy as npdata = pd.DataFrame([[2.3, ...
2020-02-16 22:13:17
407
原创 利用pandas对列进行筛选&利用索引/多列值重新排序
实际工作中我们可能遇到,挑选出表格中每一列中的最大值最小值组成新的DataFrame,或者按照索引(日期)、某些列的值进行重新排序,由于内容不多,我就合并在一起写下来给大家参考对列值进行自定义规则筛选1、数据准备import pandas as pdimport numpy as npframe = pd.DataFrame(np.random.randn(4, 3), c...
2020-02-15 23:32:30
868
原创 利用pandas调换列的顺序并且删除指定行/列
如果你做数据分析的工作,那么相信我Pandas是你离不开的模块,事实证明它也没有让我们失望,所以将重点记录一些常用方法调换列顺序的l两种方法1、数据准备import pandas as pddata = {'state': ['O', 'i', 'N', 'd'], 'year': [2000, 2001, 2002, 2003], 'po...
2020-02-14 23:34:11
1673
原创 最全Ndarray,DataFrame,List之间的相互转化方法总结
可以说这些方法在实际的工作中用的是相当的频繁,我在网上并没有搜索到全面式的总结,当然还有字典(dict)的转化,我会在下一篇博客中总结出来1、 数据准备import pandas as pdimport numpy as npdata = np.array([[1,5,8],[3,6,4],[7,5,1]])df = pd.DataFrame([4,48,5,9])2、 ...
2020-02-12 01:59:46
2068
原创 Python中pymysql和sqlalchemy在导入数据库的各自应用场合
有关数据分析的文章,都会默认大家会使用pandas(基本方法的应用),所以涉及到pandas的东西不会赘述来到Python3,我们知道很多人在将数据导入Mysql数据库的时候采用的是pymysql,(mysqldb在3.x版本已经弃用)。所以大家的导入流程无外乎这样:构建连接-创建游标-游标检索-构造SQL-执行sql-关闭游标-关闭连接import pymysql# 连接库的操作...
2019-06-20 19:08:18
1159
原创 mysql数据库中插入数据并进行自动迭代更新
问题我们知道在数据库中保证数据的微信性是十分必要的,这也就是有主键的一个原因,但是数据肯定是需要更新的,当然我们可以按照日期或者其他维度进行数据的永不冲突的更新。但是还有一种情况下需要我们迭代的去更新数据,比如下图主键是ID现在name为“哈哈哈哈”的人年龄要变成99,由于存在主键的原因,你在插入一条数据如果ID相同是没办法插入的,这里就要介绍Mysql的一个特别神奇的功能-ON DU...
2019-06-19 19:54:03
2769
原创 pandas将多列csv文件读成一列的问题
现在越来越依赖Pandas进行数据的处理,不仅速度快,对于和关系型数据库的对接也十分的友好问题最近在网络上爬取下来的一个CSV文件,在用pandas读取的时候,返回的是一一堆乱码,我们知道这个是编码的问题,代码pd.read_csv(file,engine = 'python',enconding = 'utf8')但是就会出现这种问题:读成了一列!其实这个页面编码的...
2019-06-19 19:00:21
8343
原创 数据分析师的需要的「听说读写」技能
今天主要来聊聊「数据分析师」这个宏观的岗位,一个很多人和我交流的岗位。其实准确来说,数据分析师并不是程序员,网上有一句话很好的概括了这一职业和程序员的区别:在了解编程之前更重要的是讲好一个故事。先说一下「极端」数据分析师的岗位要求吧:Excel和SQL可以说是我见过最低的岗位要求了,SQL会取数据,Excel完成可视化:对比较为高端的要求就是有额外附加项:机器学习\Hadoop\Spar...
2019-03-24 23:08:54
367
原创 如何消除python中的VisibleDeprecationWarning\ DeprecationWarning等类似警告:
我们在写相关代码时总会有一些警告,虽然并不影响结果,但是很影响美观。如果在不急于解决警告的情况下我们可以选择一些方法进行忽略。eg:VisibleDeprecationWarning: boolean index did not match indexed array along dimension 0;DeprecationWarning: This function is depr...
2019-03-24 22:15:04
11842
原创 .as_matrix()的作用
在我们读取一些excel/csv文件的数据后,在训练模型之前经常要对数据进行数组转化解释含义如下:Convert the frame to its Numpy-array representation.当然很多时候在提取完数据后其自身就是数组形式(<class ‘numpy.ndarray’>),这只是习惯性的谨慎。很多时候取得的数据是DataFrame的形式,这个时候要记得...
2019-03-24 22:02:51
36556
转载 python笔记-基础篇面试题(附答案)
本内容首发于公众号(更好的阅读体验):琦度1这是一篇长文,我们都知道网上有很多的面试题,但是大多数没有答案。所以在找到了大量的面试题和知识点之后。我打算整一个专题好好的给大家整理一下。尽量每一题的知识点都和大家解释一下。大家可以看看自己薄弱的地方在什么地方,我推荐看那个编程题和31,33声明:题目来自网上2Python和Java、PHP、C、C#、C++等其他语言...
2018-11-09 23:05:33
1966
原创 python实现多目录文件夹及文件的选择性删除
本内容首发于公众号(更好的阅读体验):琦度1在日常的处理数据库中,得到的是海量的数据,这些数据是没办法直接入库使用的,而是经过一系列的流程处理。其中在我接触的一个环节中,存在的大量文件夹和文件的生成,每执行一次就要完全的手动清理一次。抱着重复的工作必然可以用程序来代替。就写了如下一个小工具。2说明:在我们linux系统平台上大多习惯采用linux的命令来进行文件目录的增删的...
2018-11-09 22:50:08
955
原创 Linux虚拟机系统安装详解
本内容首发于公众号:琦度1虚拟机安装其实就是普通软件的安装是一样的,一路“下一步”,但是安装之后还是有些比较难缠的问题,不幸的是我当初基本上都遇到了,幸运的时都一点点的慢慢解决了。不过虚拟机我听说还是很强大的,很多功能我也没有涉及。但是像excel&Word的很多功能我们并不熟悉,但并不影响我们平时的使用对吧。2OK,从我给的资源或者你们网上下载的情况下(没看过前文的...
2018-11-09 22:40:32
303
原创 Python2和python3的区别
本内容首发于公众号:琦度从我开始接触的时期开始Python3其实已经在全面的进行推广了,所以在简单的接触Python2之后开始决定开始学Python3,但是简单的说关于2和3的区别我们还是要了解一点比较常用的,至少2.x的版本在改改能让他在3的解释器上面执行。注:接下来的讲解大都只是我在学习过程中所遇到的问题和总结可能并不能全面的覆盖之间的区别,但是对于一些具体的例子来说还是比较受用的...
2018-11-09 22:31:51
504
原创 Python实现微信自动回复和指定发送群聊消息
本文章首发于公众号: 琦度阅读本文大约需要5分钟先说一件事,抱着“沉淀成本不是成本”的态度,最近会将以前写的文章删除或者进行合并,按照高人的指点进行格式上和内容上的完善。因为一直写基础的缘故,今天朋友提了下面这样一个需求。就顺便写了一个小项目和大家分享一下(图片是微信截图粘贴不了,抱歉。但不影响下文阅读)2itchat:强大的微信个人号的开源接口,使用几十行...
2018-08-11 09:10:27
15592
原创 教你查看网页的记住密码和免费下载付费音乐
本内容首发于公众号: 琦度阅读本文大约需要5分钟1因为日常工作中时常接触到内网界面的缘故,所以渐渐知道了浏览器的‘F12’的强大性(比如说百度的招聘信息就在F12页面中)。索性也就了解了一点Python前端知识,今天不讲具体的技术,单纯的从页面F12键中教你两个可炫耀的“撩妹”技能。(大佬请装作不知道)2页面密码现行:现在到处注册账号的年代,我知道很多人一个密码通...
2018-08-09 23:27:17
2821
原创 Python2和Python3在windows上和Ubuntu上的安装(包含路径设置)
初学Python的小伙伴肯定多少会有一些关于纠结学2还是3的问题,甚至是在win还是linux上学的矛盾。我本人也是搜集相关的资料最终决定选择Python3并且在虚拟机上面进行学习。不过长期的实践倒也总结了一点关于Python安装的笔记,尝试整理一下:本内容首发于公众号: 琦度在Windows上安装Python2版本:其实在linux和os上面安装Python...
2018-03-22 20:58:52
1334
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人