![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
gezigezao
WHU 移动安全工程师 程序媛
展开
-
【CRON表达式】定时任务的设定
CRON表达式原创 2022-10-10 14:53:40 · 202 阅读 · 0 评论 -
数据可视化(三)批量生成word文档自动化
一、工具介绍相信学数据分析的大家,都会遇到需要批量生成文档的要求。每个报表都手工制作一份文档实在是太痛苦了~~那么就请拿走这篇的代码吧!教你如何自动化批量生成文档!python-docx是python里的word支持库,可以用这个批量生成word文档。二、函数及参数介绍(1)初始化一个对象使用Document初始化对象doc=Document()(2)设置文档风格sytles可以...原创 2020-04-06 21:50:48 · 1097 阅读 · 0 评论 -
机器学习教程(一)使用pandas和sklearn进行建模并评估
一、数据归一化数据归一化(Normalize)数据归一化的意义在于,如果每个特征的差别非常大,那么机器学习在训练过程中,会花费非常大的时间。所以需要对特征进行数据归一化,就是把所有特征向量的范围在一定内,比如都在[0,1]之间。1.均值归一化 2.最大值/最小值归一化 x=x-min/(max-min) 这样可以把每个特征的缩放到[0,1]范围内 df[col].min()就是对这一列...原创 2020-03-29 22:50:19 · 1029 阅读 · 0 评论 -
数据可视化(二)--使用Pyechart生成可动态交互的图表
前面一张文章介绍了使用Python自带的matplotlib生成的图表,当数据图例标签太多而产生重叠,非常影响美观。、 如何解决图例标签堆叠在一起呢?解决办法:使用pyecharts模块pyecharts介绍 *pyecharts来自于echarts,echarts是百度的JavaScript可视化化开源库,集成了包括饼图、柱状图、地理位置图、热力图等多种图表格式。使用起来非常方便。...原创 2020-03-22 15:43:51 · 3096 阅读 · 0 评论 -
Spark+JAVA+读取CSV文件
//spark 读取csv文件 public static class ParseLine implements FlatMapFunction<Tuple2 <String,String>,String []> { public Iterable<String[]> call(Tuple2<String, Stri...原创 2020-01-02 20:45:35 · 1460 阅读 · 1 评论 -
数据可视化(一)--DataFrame绘制饼图+输出中文标签+美化图表
数据可视化–对DataFrame的数据进行画图dataframe有自带的函数plot进行画图,需要引入matplotlib的pyplot库import pandas as pdimport numpy as np import matplotlib.pyplot as pltdf = pd.DataFrame(3 * np.random.rand(4),index=[u'衣服',u'裤...原创 2019-12-22 16:56:10 · 9702 阅读 · 0 评论 -
Spark大数据学习(1)--Spark连接HIVE进行SQL查询
1.Spark可以连接Hive进行SQL查询,目前我了解的有如下两种(1)构建SparkContext ,创建HiveContext对象,连接hive进行查询(2)直接采用SparkSession方式,enableHive2.使用第二种方式,直接使用SparkSession.sql()方法进行sql查询,返回一个DataFrame对象。3.maven的使用:(1)maven compil...原创 2019-09-13 21:57:57 · 531 阅读 · 0 评论 -
Spark大数据学习(2)--Spark中SparkSession的Dataframe操作
今天我们来学习一下Spark中的SparkSessionSparkSession是SparkContext对象的一个封装,可以通过SparkSession访问到SparkContext。1.SparkSession的创建SparkSession spark = SparkSession.builder().appName()//设置应用名称.master() //可以选择"local"...原创 2019-09-18 20:38:11 · 574 阅读 · 0 评论 -
Pandas数据处理之分组与合并
1.DataFrame的分组使用groupby()(1)groupby()返回的是一个可以迭代的对象,如果你需要把分组好的类别提取出来,可以先将他们转换为LISTlist(df.groupby("key"))这样的结构是每个LIST元素是一个元组,代表着这个类别下面的数值+对应的dataframe就是一个tuple结构,tuple[0]是分组类别,tuple[1]是dataframe取...原创 2019-10-10 20:33:09 · 251 阅读 · 0 评论