- 博客(59)
- 资源 (2)
- 收藏
- 关注
原创 大数据计算框架及引擎介绍
主流的大数据处理框架包括以下三类五种:1、仅批处理框架:Apache Hadoop2、仅流处理框架:Apache Storm、Apache Samza3、混合框架:Apache Spark、Apache Flink
2022-09-15 19:28:57
5866
1
原创 大数据开发之小文件合并
文件的平均大小=分区大小/文件数,理想情况下,文件的平均大小在128MB~256MB之间,如果文件的平均大小过于小,则认为数据表里小文件过多,可以进行文件的合并。
2022-08-26 18:23:33
611
原创 windows 命令行操作
1、运行里输入cmd,打开命令行2、用cd …可以回到上一级目录3、返回最开始的路径,用cd 4、在同一磁盘下,用cd 目标路径跳转5、不在同一磁盘下,要用cd …命令,先跳转到另一磁盘,如跳转到c盘最上层目录,用d:可以跳转到D盘6、文件操作命令创建: md 文件名拷贝:copy 需要操作文件名 目标路径(相当于复制+粘贴)删除:del 文件名(会删除文件夹下所有非文件夹的文件但是文件夹会被保留)rd 文件名 (会删除当前的空文件夹,注意是当前哦)rd /s/q 目标文件名(会删除
2022-02-10 15:53:52
5951
原创 python 使用scipy中的curve_fit拟合自定义曲线
Scipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题。scipy.optimize中有curve_fit方法可以拟合自定义的曲线,如指数函数拟合,幂指函数拟合和多项式拟合,也能拟合直线方程函数,下面汇总示例如下:一、先导入所需要的包from scipy.optimize import curve_fitimport matplotlib.pyplo
2022-01-20 16:36:17
5502
5
原创 python dataframe新增一列
1、直接在后面新增一列指明列名,并赋值即可:data[‘addlist’]=[1,2]2、在指定位置新增一列用insert()函数,data.insert(位置,列名,列值),例如:data.insert(2,‘c’,’’)3、根据现有列计算生成新的列dataframe 根据某列的值生成新的列df2[‘是否逾期’]=df2.apply(lambda x:0 if x.应付日期>today_time else 1,axis=1)df2[‘是否到期90天’]=(today_time -
2022-01-12 11:55:01
38417
1
原创 spyder 清屏操作
1、清除所有变量reset ,在接下来的提示中选择y2、清除所有输入变量reset in ,在接下来的提示中选择y3、清除所有输出变量reset out,在接下来的提示中选择y
2022-01-12 10:45:33
565
原创 python中map函数的用法
Python函数编程中的map()函数是将func作用于seq中的每一个元素,并将所有的调用的结果作为一个list返回。如果func为None,作用同zip()。函数格式为:map(func, seq1[, seq2,…]) ,当有多个迭代参数对象,同时,迭代对象内的元素个数又不一致时,以最短的那个迭代对象作为停止的标准。作用:会根据提供的函数对指定序列做映射。1、当seq只有一个时,将函数func作用于这个seq的每个元素上,并得到一个新的seq。一个seq时,可以使用filter()函数代替,那
2022-01-11 14:41:18
1103
原创 python 自定义函数的返回值
python中自定义的函数,有的有返回值,有的没有返回值,且返回值的类型也需注意。1、无返回值例如 list 的 append 操作就是无返回值的,换句话说就是不能进行如下的连续操作:list = []list.append(1).append(2)2、返回值的类型自定义函数的返回值是 list/tuple,或者单个变量,...
2022-01-11 11:22:04
3126
原创 python 实现并行计算加快速度
方法之一:运用多核CPU,进行python多进程计算,使用multiprocessing这个包。multiprocessing模块涵盖了一系列方法来处理并行执行例程。这包括进程,代理池,队列以及管道。Pool.map()方法需要三个参数 - 在数据集的每个元素上调用的函数,数据集本身和chunksize。chunksize不是必须的。如果未明确设置,则默认chunksize为1。示例:import multiprocessingimport timeimport osprint(“温馨提示:本机
2022-01-11 10:54:20
1803
原创 python 报错:IndentationError: unexpected indent
问题表现:运行一段python脚本时,报错:IndentationError: unexpected indent产生原因:python脚本中空格和tab字符看起来是一样,但是程序运行又不一样,这样就会报错;解决办法:1、前面的空格可能是中文空格,应该改成英文空格;2、前面的空格可能是tab键,python的空格与tab键不能通用。...
2022-01-10 15:50:23
363
原创 python操作mysql数据库
创建数据库‘’‘创建数据库’’’import pymysql#打开数据库连接,不需要指定数据库,因为需要创建数据库conn = pymysql.connect(‘localhost’,user = “root”,passwd = “123456”)#获取游标cursor=conn.cursor()#创建pythonBD数据库cursor.execute(‘CREATE DATABASE IF NOT EXISTS pythonDB DEFAULT CHARSET utf8 COLLATE u
2022-01-07 15:37:49
1138
原创 Python报错:ModuleNotFoundError: No module named
问题表现:在spyder里安装好pymysql后,无法导入该包,提示:import PyMySQLTraceback (most recent call last):File “”, line 1, in import PyMySQLModuleNotFoundError: No module named ‘PyMySQL’问题原因:核心原因是需要启动的包所在文件夹,和正运行的python.exe不在一个文件夹下,可能是安装了多个版本的python。解决方案:1、用!pip instal
2022-01-07 12:03:22
9865
原创 PYTHON中的%的意思
1、%,代表数学运算符号,求模;2、%还用在python的格式化输出,比如:a = ‘test’print ‘it is a %s’ %(a)打印的结果就是 it is a test3、PYTHON中数据库操作https://blog.csdn.net/qq_30008595/article/details/84995241?ops_request_misc=&request_id=&biz_id=102&utm_term=python%20%E8%AF%BB%E5%8F
2021-12-21 14:43:20
3379
原创 python 计算日期差
from datetime import datetimecur_day = datetime(2019, 7, 30)next_day = datetime(2019, 7, 31)print((next_day - cur_day).days) # 1print(“ok”)
2021-12-21 10:58:43
586
原创 PYTHON函数传参的几种方法
引用:https://blog.csdn.net/qq_41500249/article/details/102788966?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163999652116780271926516%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=163999652116780271926516&biz_id
2021-12-20 18:36:33
656
原创 PYTHON基础
一、字符串1、字符串的创建使用单引号或者双引号,都可以创建字符串,两者联合使用,可以创建字符串中的字符串的效果:b = ‘my_name is “TOM”’连续三个单引号或者三个双引号,可以创建多行字符串:resume = ‘’’ name=“gaoqi” company=“sxt” age=18 lover=“Tom”’’’空字符串’ ',不包含任何字符且长度为0,len()用于计算字符串的长度,即含有多少个字符。2、字符串中的转义符号\ 反斜杠符号\b 退格(Backspace)\n 换
2021-12-15 10:09:56
880
原创 HIVE开发常用语法介绍
1、str_to_map-字符串转为map格式:https://blog.csdn.net/yuanyangsdo/article/details/64441165nvl(str_to_map(nvl(qua,‘LCID=0000’),’&’,’=’)[‘LCID’],nvl(split(qua,’&’)[6],‘0000’)) as lcidcase nvl(str_to_map(nvl(qua,‘TM=01’),’&’,’=’)[‘TM’],‘01’) when ‘04’ t
2021-12-09 15:45:46
320
原创 关于样本偏差
看两个案例;X大学设立了一个著名的音乐剧项目。该项目只为一小批具有非凡音乐潜质的高中毕业生提供奖学金。简老师是这个项目的负责人,她有一些朋友是当地高中的戏剧课老师。一天下午,她去斯普林菲尔高中考察一个学生的情况,这个孩子是由其戏剧课老师强力推荐的,据说是一个十分优秀的年轻女演员。简老师观看了一出由罗杰斯与汉默斯坦创作的音乐剧的彩排,那个女孩子在剧中担任主角。结果,她说错了好几句台词,看上去她对角色的把握也不好,表现得像是几乎没什么舞台表演经验。简老师告诉她的同事,她现在十分怀疑她的朋友的判断。这是一个明
2020-12-24 11:41:45
4385
原创 tableau之仪表板与故事
仪表板(dashboard)是显示在单一位置的多个工作表和支持信息的集合,它便于同时比较和监视各种数据。简单来说,就是把很多张图表凑到一起,方便系统地查看数据,就像一张互动性很强的小海报。故事(story)是一个包含一系列共同作用以传达信息的工作表或仪表板的工作表。就类似于一个Tableau版的PPT展示,用来向吃瓜群众们流畅present你的图表。为了更系统地查看数据,可以创建一个仪表板。单击工作簿底部的“新建仪表板”选项卡,然后单击工作表(Top States for Data Jo
2020-08-28 12:05:04
2735
1
原创 R常用语法
1、查看变量类型: class查看第一层类别,mode查看第二层类别,typeof查看第三层类别2、查看长度:length()3、查看行列:nrow-行 ncol-列4、分组统计:tapply(y,x,sum) 以x分组统计y,统计函数是sum5、行列转置:t()6、查看数组维数:dim()7、所有参数通用查看函数:str、attribute8、行列合并:cbind-扩展列,rbind-扩展行9、获取数据框的所有行名:rownames(数据框名)10、获取数据框的所..
2020-08-27 16:47:08
195
原创 kmeans聚类算法提高聚类性能的方法
1、评估最佳k值 计算每个点到簇质心的距离平方值,评价聚类质量。2、导致聚类效果较差的原因有 收敛到了局部最小值,而非全局最小值,也就是还需要继续收敛;3、用误差平方和SSE来度量聚类效果。 即程序中clusterAssment矩阵的第一列之和,SSE越小表示数据点越接近它们的质心,聚类效果也越好。4、一种可以肯定降低SSE的方法是增加簇的个数,但违背了聚类的目标,聚类的目标是在保持簇数目不变的情况下提高簇的质量。5、对生成的簇进行后处理,一种方法是将具有...
2020-08-27 16:44:54
1593
原创 python初使用
1、安装包: 打开anaconda prompt,在所需要的环境下输入conda install requests; 打开anaconda prompt,在所需要的环境下输入pip install requests,等待下载完成即可。 打开anaconda中的spyder 或者qtconsole,在命令行中输入!pip install requests,等待下载完成即可。 没有下载anaconda的,必须要...
2020-08-27 16:43:11
135
原创 平台架构案例
项目名称:用户上网行为分析系统软件架构:kafka+hadoop+sqlite+hbase+hive +sqoop开发环境:eclipse + mysql + maven+ ssm项目描述:通过大数据技术实现基于浏览器的用户历史记录分析,用于监控互联网企业网络安全和提高员工工作效率。实时监控企业网络安全,对敏感信息进行过滤,控制员工网络访问点和速度;分析员工的工作效率,给出合适的意见。架构图:开发步骤:1.通过 java+sqlite 解析浏览器历史记录文件,把文本...
2020-08-27 16:41:26
141
1
原创 python用 xlwt 输出 xls 文件,报错如下:ValueError: row index was 65536, not allowed by .xls format
解决方法xlrd 和 xlwt 是python中用来处理 xls 文件的函数,其单个 sheet 限制最大行数为65535,因此,当读写数据量超出时就会出现如上错误。如果希望有更大的存储,建议使用 openpyxl 函数,其最大行数为1048576,存储的文件类型为 xlsx 。import openpyxldef writetoxlsx():data = open('./data.txt', 'r')outwb = openpyxl.Workbook()...
2020-08-27 16:32:40
1504
原创 多元统计分析
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。简称多元分析。当总体的分布是多维(多元)概率分布时,处理该总体的数理统计理论和方法。数理统计学中的一个重要的分支学科。 ...
2020-08-27 16:16:32
849
原创 用户行为路径分析
引自:http://www.niaogebiji.com/article-19687-1.html 这篇文章是我看过介绍用户行为路径分析,从概念到方法论都很全面的一篇,推荐! 用户行为路径分析是一种监测用户流向,从而统计产品使用深度的分析方法。主要根据每位用户在APP或网站中的点击行为日志,分析用户在APP或网站中各个末库的流转规律与特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途,如APP核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画...
2020-08-21 15:02:14
1783
原创 tableau 中将字符串转换为日期的方式
tableau中默认日期的格式为2020/08/01这样的格式,如果不是这个格式,需要做一些转换后,再用date函数来处理。例如:date字段的值是20200101,left(str([date]),4)+’-’+mid(str([date]),5,2)+’-’+right(str([date]),2),处理完之后,tableau还是认为他是字符串,所以你要让他为date,就需要再加一个date处理一下,即date(left(str([date]),4)+’-’+mid(str([date]),5,2
2020-08-15 14:11:06
5568
原创 tableau中快速实现环比增长率计算
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、引入数据源此处略。二、复制要计算的指标在一个新工作表中,到度量指标下,选中要计算环比增长率的指标,右键选“复制”,
2020-08-14 20:43:41
2898
原创 一个开源数据分析平台的搭建方法
引用以下文章链接,做了一个简单的笔记:一个简单的数据分析平台搭建教程 http://www.woshipm.com/data-analysis/760397.html 优秀的数据分析平台,首先要满足数据查询、统计、多维分析、数据报表等功能,替代原始的SQL+EXCEL的工作形式。 互联网公司在整合获取公司数据集合的基础上,如何敏捷分析获得洞察是需要解决的重点问题。 当前市面上有不少收费的分期平台和BI工具,对于数据分析需求要求不高的企业来说,可以免费建立一套BI...
2020-05-27 11:58:06
1090
原创 python实现邮件自动推送附件数据
实现案例:-- coding: utf-8 --“”"Created on Tue Mar 31 16:34:03 2020定时推送财务核算月度数据;@author: Administrator“”"import smtplibfrom email import encodersfrom email.header import Headerfrom email.mime.tex...
2020-04-01 11:55:56
669
原创 R连接HIVE
R连接hive、impala方法:1、下载并安装java,并配置好环境变量;2、下载hive驱动:apache-hive-1.2.1-bin.tar.gz,到官网下载,解压后里面有lib文件夹3、在R里安装rJava、RJDBC4、加载包、加载驱动:list.files里面是驱动解压后存放的路径,重点是里面的lib文件夹路径library(RJDBC)jdbcdriver <-J...
2019-12-04 16:59:07
357
原创 SVM学习总结
http://blog.csdn.net/csqazwsxedc/article/details/52230092使用SVM需安装e1071包第一种简单方式建模:svm(formula, data= NULL, subset, na.action = na.omit , scale= TRUE) formula:函数模型的形式data:模型中包含的有变量的一组可选格式数据。...
2018-10-24 11:01:44
214
原创 PYTHON抓取网页总结
一、需要用到的包1、re:正则表达式处理包正则表达式匹配原理图正则表达式的大致匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界,这个过程会稍微有一些不同。Python支持的正则表达式元字符和语法: 注:Python里数量词默认是贪婪的(在少数语言里...
2018-10-24 10:48:49
179
原创 MYSQL和ORACLE的区别
相同点1.都是关系型数据库管理系统2.目前最流行的数据库 不同点 优点a.mysql的优点是开源免费、简单易用、稳定可靠、易于扩展都是非常不错的。实际上,用MySQL支撑的google的数据库、Facebook的数据库、中移动飞信的数据库够大了吧,MySQL还是完成能够支撑一些大规模的应用的,尤其在互联网行业,MySQL的复制功能可以很方便的实现读写分离后的水平...
2018-10-24 10:46:56
130
原创 xgboost学习总结
特征处理: 缺失值处理: 哑变量处理: 附:需要处理哑变量的算法有,knn、glmnet、svm、xgboost;不需处理为哑变量的算法有,logistic regression、raprt、GBM、randomforest 一、模型参数: 在训练过程中主要用到两个方法:xgboost.train()和xgbo...
2018-10-24 10:45:53
829
原创 R中的字符串处理
1、 nchar作用:可以读取一个字符串的实际长度(字符串内部字符数目)x<-c('Hello','how are you?')nchar(x)y<-c('what are you doing',NA,'I do nothing!',23)nchar(y)2、length作用:返回向量和矩阵中元素的个数,数据框列的个数,列表中的元素个数a<-1:100#...
2018-10-24 10:40:06
531
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人