- 博客(344)
- 资源 (14)
- 收藏
- 关注
原创 Python - pyecharts:保存图片
第一步:安装phantomjs打开系统命令行,键入下列代码:npm install -g phantomjs-prebuilt第二步:安装了 Nodejs 环境下载链接:https://nodejs.org/en/download/第三步:安装 pyecharts-snapshotpip install pyecharts-snapshot第四步:重启计算机,re...
2019-04-17 22:18:19 2071
原创 windows安装pyspark(python版spark)
1.安装jdk,参见前文2.安装pyspark#这个比较慢pip install -U pyspark#这个快一点pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pysparkfrom pyspark.sql import SparkSessionfrom pyspark.sql.function...
2019-04-17 22:05:53 2060
原创 pandas数据应用案例
用以下数据做一个简单的python数据分析案例#导入excel数据import pandas as pddf= pd.read_excel(r'E:\ETL_soft\python\tt.xlsx')df#数据列的形式用中括号统一一下#df['标准分']=(df.录取分数 - df.录取分数.min())/(df.录取分数.max()-df.录取分数.min())#dfd...
2019-04-17 16:37:45 642
原创 pandas的增删改查和分区分桶
#读取文件temp = pd.read_excel(r'E:\ETL_soft\python\bool.xlsx')#返回几行数据记录temp[:6]#新生成一列temp['tip_pct']=temp['tip']/temp['total_bill']temp[:6]#根据分组选出最高的5个tip_pct值def top(temp,n=5,column='tip_pct')...
2019-04-17 13:26:49 2011
原创 python中pandas的应用复习
import pandas as pd #在df中取某列,比如namedf.namedf['name'] #取多列df[['name','age']] #计数df.name.count() #查看df信息,infodf.info() #查看有多少列df.shape[1]#查看多少行df.shape[0] #排序,以values排序,以index排序#so...
2019-04-17 13:13:42 201
原创 Python连接Hive(基于PyHive)
遇见的坑1.连hive之前安装pyhs2,结果发现要sasl,发现sasl还不能安装,需要到https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl这里下载对应的包,我的得python3.7-win7安装好sasl之后,紧接着安装pysh2是可以了。https://blog.csdn.net/a6822342/article/det...
2019-04-16 08:45:21 2681
原创 airflow的安装和应用
ETL 差不多是数据处理的基础,要求非常稳定,容错率高,而且能够很好的监控,其全称是 Extract,Transform,Load, 一般情况下是将乱七八糟的数据进行预处理,然后放到储存空间上。一般过程上,在数据进入后需要人工的去将数据的按流程处理一遍,调用各种工具。这个过程有些机械化,所以可以考虑使用脚本或者其它工具进行控制。airflow 是能进行数据pipeline的管理,甚至是可以当...
2019-04-15 10:57:15 514
原创 hive时间函数问题的业务问题
在hive中要实现-- 留存收益值select t1.report_date,now_amount,seven_amount,month_amount FROM (SELECT report_date,sum(total_amount) AS now_amount FROM jt_sk_ods.place_report t1 GROUP BY report_date) t1LE...
2019-04-10 16:59:42 298
原创 python学习之路--数据分析利器pandas
pandas的实用性相信不用我多说,大家都知道其厉害之处,无论是《利用python进行数据分析》,还是《python科学计算与数据分析》等等书籍都花了很大篇幅去介绍它的功能。今天根据个人的学习心得以及工作上使用的经验对其进行一个简单的汇总。1. 数据结构pandas常用的数据结构有两种,分别是一维的series(一组索引和一组数据)和二维的dataframe。series由一组索引和一组数...
2019-04-08 23:05:33 329
原创 python-案例总结-二--pandas预处理常用操作
python常用于数据分析,主要是因为有了数据分析利器--pandas。前两期已经介绍了pandas的数据结构、读写操作等,今天主要介绍一下常用的数据分析预处理的操作,分别是:(1)缺失值处理:dropna(),fillna()(2)重复值处理:drop_duplicates()(3)离散化:cut(),qcut()(4)分组聚合:groupby()(5)数据透视表:pivot...
2019-04-08 23:03:38 269
原创 python-案例总结-一
好像最简单的python分析并没有放进我的博客,有点时间也得整理到这里来,今天是第一则,以实际案例出发:import numpy as npimport pandas as pdIn [12]:#nan默认是float型demo1 = pd.Series([1,2,3,np.nan,5,6])In [3]:demo1Out[3]:0 1.01 2.02 ...
2019-04-08 23:01:30 385
原创 传统的(Oracle)行存储和(HBase)列存储的区别
列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就更容易为这种聚集存储设计更好的压缩/解压算法。传统的(Oracle)行存储和(HBase)列存储的区别1、数据是按...
2019-04-08 20:32:26 886
原创 支持向量机-重点
https://blog.csdn.net/jcjx0315/article/details/61929439https://blog.csdn.net/jmh1996/article/details/78250556Apriori算法基本原理:http://www.cnblogs.com/muchen/p/6305890.html随机森林:https://blog.csdn.ne...
2019-04-02 22:54:53 174
原创 逻辑回归算法--重点
1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候,经常遇到的一些问题。2.正式介绍 如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概括...
2019-04-02 22:53:36 301
原创 同比环比上周上月的问题实现方案
需求:在一个折线图中同时显示三条线,第一条线显示start_time到endtime之内的数据第二条线显示start_time-7到endtime-7之内的数据第三条线显示start_time-30到endtime-30之内的数据另注:当前日期:2017/11/12 10:15:011、oracle中add_months()函数SELECT add_months(SYSDA...
2019-04-01 17:08:56 1673
原创 python机器学习-1
一直没有将自己的python算法放上来,主要是没时间去整理!有时间在处理,以下博客中的机器学习可查看这些!博客地址:https://www.cnblogs.com/pinard/category/894692.html算法链接:https://github.com/ljpzzz/machinelearning...
2019-04-01 09:06:04 137
原创 Impala和Hive的关系(详解)
Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。与Hive的关系 Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧...
2019-03-29 11:29:15 428
原创 (全程图解)Axure RP8.0安装、破解、汉化教程
操作合理,测试成功链接:https://blog.csdn.net/sinat_34104446/article/details/82385032流程图:https://www.zhihu.com/question/20177573#answer-1237739对应教程:https://www.jianshu.com/p/40b71a0e4fbb ...
2019-03-27 10:23:29 1074
原创 数据中心架构-数据仓库
数据仓库(Data Warehouse):是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。数据中心架构:DW:data warehouse翻译成数据仓库DW数据分层...
2019-03-25 16:33:19 1516
原创 阿里云ODPS常用命令总结
Create Table命令格式如下:CREATE TABLE [IF NOT EXISTS] table_name //表名与列名均无所谓大小写 [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_typ...
2019-03-22 14:43:56 3137
原创 ODPS初始篇--客户端配置和使用
注册odps账号注册地址:http://www.aliyun.com/product/odps/还赠送一个同名的支付宝账号。开通“开放数据处理服务 ODPS”服务开通时需要先实名认证,选择“登录支付宝快速认证”完成认证过程。认证后可以开通odps服务,默认是“按量付费”。开通后,需要先创建“ACCESS_KEY”,会生成一个ACCESS KEY ID和ACCESS KEY SECRET...
2019-03-22 14:23:08 2261
原创 阿里云大数据平台的实操:ODPS的SQL语句
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。当今社会数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(百GB、TB乃至PB)级别。MaxCompute服务于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务。由于单台服务器的处理能力有限,海量数据的分析需要分布式计算模型。分...
2019-03-22 13:32:15 3132
原创 用Python将多个excel表格合并为一个表格
#下面这些变量需要您根据自己的具体情况选择biaotou=['学号','学生姓名','第一志愿','第二志愿','第三志愿','第四志愿','第五志愿','联系电话','性别','备注']#在哪里搜索多个表格#C:\\Users\\lihwa11\\Desktop\\Python\\filenamefilelocation="C:\\Users\\lihwa11\\Desktop\\Py...
2019-03-21 12:00:51 5504 6
原创 pyppeteer实现登录出现的问题
最近登录某宝和某乎,发现之前写的代码又熄火了,官方给的反扒机制越来越牛叉了,发现之前使用的selenium无法完成登陆的滑动验证,一点作用都没有,菜鸟一枚,查了相关的资料,就开始使用pyppeteer来弄某数据平台的内容。使用pyppeteer滑动验证参考网上很多文章,以下代码也来源于网络,只对部分细节进行了修改,并且记录了pyppeteer使用过程中遇到的一些问题。#!/u...
2019-03-21 10:20:57 4466 4
原创 tushare安装包问题
不知道为啥,现在用conda install tushare 安装总是出现问题总是要用pip install tushare 才能成功。
2019-03-19 15:01:28 1490
原创 使用和创建wiki
以前在某大型互联网公司会用到,现在推荐给了当前的公司,运维上便捷太多了。https://support.office.com/zh-cn/article/%E5%88%9B%E5%BB%BA%E5%92%8C%E7%BC%96%E8%BE%91-wiki-dc64f9c2-d1a2-44b5-ac59-b9d535551a32#ID0EAADAAA=Online、2019、2016、201...
2019-03-19 14:14:52 598
原创 sql字符串分列
1.不为空select * from table where id <> "";select * from table where id != "";2.不为空select * from table where id =""; ####varchar字符串类型select * from table where isNull(id); ####int数值类型...
2019-03-15 10:06:27 2837
原创 (续)ubuntu下Python中安装Jupyter失败的问题解决方案
发现用conda命令出现了安装不了jupyter的情况。1.解决方案(1)更新和升级包sudo apt-get updatesudo apt-get upgrade (2)安装pipsudo apt-get install python-pip2. 安装Jupyter(1)升级pipsudo pip install --upgrade pip(2)安装Jupyte...
2019-03-04 15:15:31 1332
原创 ubuntu配中文输入法
https://jingyan.baidu.com/article/a3aad71aa1abe7b1fa009641.htmlhttps://pinyin.sogou.com/linux/help.php
2019-03-01 16:25:58 241
原创 Linux系统的更新问题+使用Anaconda3 出现conda命令找不到+虚拟机virtualbox安装问题
昨天下班之前,准备玩一下谷歌的图像识别,可是框架需要win10或者Linux系统,但是我的是win7的,且已经安装了很多环境,不可能去找运维升级或者再来一台什么的,怎么办,还是以前那一套,建一个虚拟机,安装一个Linux系统,可是在图中遇见了两个不一样的问题。问题1:公司电脑中的虚拟机只能显示32位的,但是我的确实是64位的。解决方案:1.重启进入bios界面,(比如我的Think...
2019-03-01 09:38:21 1088 1
原创 金融,财务,融资相关知识(三)
下面还是回到我们的话题,关于两轮股权融资。股权融资,其实就分两步走:画饼和折现。你自己创业做了一个公司,为了让别人投资,你得给别人画饼吧,比如我这个公司所研发的产品未来几年能占据多少的市场,我研发的产品能在地区产生多大的影响力,总之就是吹,能吹多大吹多大,把投资人的钱忽悠过来就行。然后是折现,比如前面举例的那家公司,吹牛5年后公司能值4000万,现在需要500万的风险投资,年回报率...
2019-02-27 15:51:58 1495
原创 金融,财务,融资相关知识(二)
大家搬好小板凳认真听讲,资产=负债+所有者权益Asset=Liabilities+equity负债包括:流动负债;短期借款和长期借款。流动负债通常指应付账款这些没有利息的负债,期限通常小于一年;短期借款和长期借款指那些需要支付利息的负债。注意:以上有特例,我们仅从通常状况来阐述。什么是应付账款?就是你开了一家服装店,需要从供货商那里进货,你把货进来了,但是货款暂时没有给...
2019-02-27 15:49:44 5320
原创 金融,财务,融资相关知识(一)
正好我这几天在复习关于PE投资和股权融资的内容的考试,那么我就简单给你说一下吧,为了方便知友们理解,我尽量尽量少用公式,因为我知道,多上一个公式,就会多增加一段大家了解其中原理的距离。马云和他的团队最初创业时,只出了50万启动资金,到现在阿里巴巴整体市值2000多亿美元,中间翻了这么多倍,然而马云的团队所占股份只有不到百分之十,第一大股东是软银,第二大股东是雅虎。这听起来也是挺遗憾的事情,...
2019-02-27 15:48:27 983
原创 Python工作问题
首先将conda install pymysql 或者 conda install python_mysql 安装:#引入pymysql模块。注意小写import pymysql#打开数据库连接。localhost为主机地址,root是mysql登陆名,123是登陆密码,pythondb是数据库名conn = pymysql.connect("localhost","root","12...
2019-02-21 10:48:13 186
原创 mysql时间转换函数
效果:-- 查看站投放量SELECT province '投放省份',city '投放城市',place as '投放场所类型',count(id) as '使用频次' FROM sell_order GROUP BY place,province,city HAVING place LIKE '%站%'ORDER BY count(id) DESC-- 查看北京SELECT ...
2019-02-21 09:56:06 858
原创 数据实时传输-永洪BI数据平台
动态获取数据并制作报告的全过程; param['date_1'] = param['_THIS_FULL_DAY_']param['date_2'] = dateAdd(param['date_1'],'dayofyear',-6)
2019-02-20 11:12:32 1521 2
原创 自动化JS效果---第五集--永洪BI
永洪BI越用越坑呀:报告设置中的布局; if(!isNaN(param['文本参数1'])){var col = 表1.binding.getCol(0);col.sortRank = parseInt(param['文本参数1']);表1.binding.setCol(0,col)} ...
2019-02-19 14:36:01 1276
pima-indians-diabetes-database-master.zip
2019-09-19
户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券
2019-09-05
order.csvorder.csvorder.csvorder.csv
2019-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人