蔡大远-CSDN博客

原创 SparkSql 处理json文件案列

package org.exampleimport java.langimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.functions._object json { def main(args: Array[St

2021-07-23 10:51:18 476

原创 Error:(15, 18) stable identifier required, but spark.implicits found. import spark.implicits._

var spark = SparkSession.builder().config(conf).getOrCreate()错误应该用 val

2021-07-22 14:49:54 796

原创 SparkStreaming HDFS监控目录

SparkStreaming HDFSpackage org.example.sparkstreamingimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import

2021-07-20 11:10:25 778

原创 Spark-HDFS

package org.exampleimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}object Spark_Hdfs { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.spark").setLevel(Level.OFF) Logger.getLogger

2021-07-19 15:29:49 265

原创 SparkStreaming+sql+保存本地 (Socket/hdfs)流简单实例

SparkStreaming Socket流简单实例Socket流简单实例启动如下的代码，然后 LInux命令：nc -lk 9999，输入字符查看程序执行结果package org.exampleimport org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Sec

2021-07-19 14:06:28 210

原创 SparkSql保存数据

SparkSql保存数据package day05 import org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession} object DataSourceDemo { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .master("local[*]") .appName("Tes

2021-07-19 09:59:57 389

原创 Spark 去除控控制台打印info日志

方法一在Spark-Shell运行如下命令：import org.apache.log4j.Loggerimport org.apache.log4j.LevelLogger.getLogger("org").setLevel(Level.OFF)Logger.getLogger("akka").setLevel(Level.OFF)方法二修改log4j配置文件（conf/log4j.properties）：log4j.rootCategory=OFF, console...

2021-07-12 16:08:11 1204

原创 Doris 建表

Doris建表这是AGGREGATE 模型的建表案列。如果是其他模型，只要改AGGREGATE KEY这一行，改掉REPLACE ，MAX，MIN，SUM，HLL_UNION)等。注意：在Doris中，unique约束与Mysql，Oracle,Hive等数据库不同，不是写在字段类型里，而是作为一种数据模型。CREATE TABLE IF NOT EXISTS example_db.expamle_tbl( `user_id` LARGEINT NOT NULL COMMENT "用户id"

2021-07-09 14:49:19 6772 1

原创 Doris 数据类型

Doris 数据类型TINYINT数据类型SMALLINT数据类型INT数据类型BIGINT数据类型LARGEINT数据类型FLOAT数据类型DOUBLE数据类型DECIMAL数据类型DATE数据类型CHAR数据类型VARCHAR数据类型HLL 数据类型BITMAP 数据类型TINYINT数据类型长度: 长度为1个字节的有符号整型。范围: [-128, 127]转换: Doris可以自动将该类型转换成更大的整型或者浮点类型。使用CAST()函数可以将其转换成CHAR。举例: mysql>

2021-07-09 10:47:12 13107

原创 doris 建表和数据划分

点我

2021-07-08 15:29:11 493

原创 SQL:REGEXP 正则表达式

点我跳转

2021-07-08 10:21:08 615

原创 mysql快速安装

安装Mysql若可以联网，执行命令：在centos7中要安装mysql-server,必须先添加mysql社区repo通过输入命令：sudo rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm下载mysql-serveryum install mysql-server添加为自启动：chkconfig mysqld on启动mysql：service mysqld start修改roo

2021-07-06 14:50:53 153

原创 Pandas 中random 与 Python内建函数 range 的异同

rangerange() 函数返回数字序列，默认从 0 开始，默认以 1 递增，并以指定的数字结束。语法range(start, stop, step)参数值> 参数描述 > start 可选。整数，指定从哪个位置开始。默认为 0。 > stop 可选。整数，指定在哪个位置结束。> step 可选的。整数，指定增量。默认为 1。创建 0 到 5 的数字序列，并打印序列中的每个项目：x = range(6)创建一个从 3 到 7 的数字序列，并打印该序列中的

2021-05-26 16:56:15 434

原创 Python 迭代、模块、日期、json、正则、字符串格式化

内建函数https://www.w3school.com.cn/python/python_ref_functions.asp字符串方法https://www.w3school.com.cn/python/python_ref_string.asp文件方法https://www.w3school.com.cn/python/python_ref_file.asp迭代https://www.w3school.com.cn/python/python_iterators.asp模块https:

2021-05-26 16:09:19 100

原创 Pandas 二十六：处理分析网站原始访问日志

Pandas 二十六：处理分析网站原始访问日志1、读取数据并清理格式化2、统计spider的比例3、访问状态码的数量对比4、实现按小时、按天粒度的流量统计目标：真实项目的实战，探索Pandas的数据处理与分析实例：数据来源：博客http://www.crazyant.net/ 的访问日志实现步骤：1、读取数据、清理、格式化2、统计爬虫spider的访问比例，输出柱状图3、统计http状态码的访问占比，输出饼图4、统计按小时、按天的PV/UV流量趋势，输出折线图1、读取数据并清理格式化

2021-05-26 10:30:52 243

翻译 Pandas 二十五：怎样实现Excel的vlookup并且在指定列后面输出。

Pandas 二十五：怎样实现Excel的vlookup并且在指定列后面输出。步骤1：读取两个数据表学生成绩表步骤2：实现两个表的关联步骤3：调整列的顺序按逆序insert，会将"姓名"，"性别"放到"学号"的后面步骤4：输出最终的Excel文件背景：1.有两个excel，他们有相同的一个列；2. 按照这个列合并成一个大的excel，即vlookup功能，要求：2.1 只需要第二个excel的少量的列，比如从40个列中挑选2个列2.2新增的来自第二个excel的列需要放到第一个excel指定的列

2021-05-25 16:53:40 534

原创 Pandas 二十四：怎么处理日期索引的缺失？

Pandas 二十四：怎么处理日期索引的缺失？问题：如果缺失了索引该怎么填充？方法1：使用pandas.reindex方法1、将df的索引变成日期索引2、使用pandas.reindex填充缺失的索引方法2：使用pandas.resample方法1、先将索引变成日期索引2、使用dataframe的resample的方法按照天重采样问题：按日期统计的数据，缺失了某天，导致数据不全该怎么补充日期？可以用两种方法实现：1、DataFrame.reindex，调整dataframe的索引以适应新的索引2、D

2021-05-25 16:37:32 878

原创 Pandas 二十三：结合Sklearn实现泰坦尼克存活率预测

Pandas 二十三：结合Sklearn实现泰坦尼克存活率预测步骤1：读取训练数据步骤2：训练模型步骤3：对于未知数据使用模型实例目标：实现泰坦尼克存活预测处理步骤：1、输入数据：使用Pandas读取训练数据(历史数据，特点是已经知道了这个人最后有没有活下来)2、训练模型：使用Sklearn训练模型3、使用模型：对于一个新的不知道存活的人，预估他存活的概率步骤1：读取训练数据1import pandas as pdpd.set_option('display.max_rows',None

2021-05-25 15:59:25 427 1

原创 Pandas 二十二：使用pyecharts来绘制折线图、柱状图

一：绘制折线图读取文件import pandas as pdxlsx_path = "datas/baidu_stocks.xlsx"df = pd.read_excel(xlsx_path, index_col="datetime", parse_dates=True)为索引排序df.sort_index(inplace=True)代码from pyecharts.charts import Linefrom pyecharts import options as opts#

2021-05-25 15:08:46 2132 2

翻译 Pandas 二十一：怎样快捷方便的处理日期数据

Pandas 二十一：怎样快捷方便的处理日期数据1、读取天气数据到dataframe2、将日期列转换成pandas的日期3、方便的对DatetimeIndex进行查询4、方便的获取周、月、季度5、统计每周、每月、每个季度的最高温度Pandas日期处理的作用：将2018-01-01、1/1/2018等多种日期格式映射成统一的格式对象，在该对象上提供强大的功能支持几个概念：1.pd.to_datetime：pandas的一个函数，能将字符串、列表、series变成日期形式2.Timestamp：pan

2021-05-24 16:21:00 287

原创 Pandas 二十：stack和pivot实现数据透视

Pandas 二十：stack和pivot实现数据透视1. 经过统计得到多维度指标数据2. 使用unstack实现数据二维透视3. 使用pivot简化透视4. stack、unstack、pivot的语法1.经过统计得到多维度指标数据2.使用unstack实现数据二维透视3.使用pivot简化透视4.stack、unstack、pivot的语法1. 经过统计得到多维度指标数据非常常见的统计场景，指定多个维度，计算聚合后的指标实例：统计得到“电影评分数据集”，每个月份的每个分数被评分多少次：（

2021-05-24 14:02:05 487 1

原创 Pandas 十九：怎样对每个分组应用apply函数?

Pandas怎样对每个分组应用apply函数?Pandas 十九：怎样对每个分组应用apply函数?实例1：怎样对数值列按分组的归一化？实例2：怎样取每个分组的TOPN数据？知识：Pandas的GroupBy遵从split、apply、combine模式这里的split指的是pandas的groupby，我们自己实现apply函数，apply返回的结果由pandas进行combine得到结果GroupBy.apply(function)function的第一个参数是dataframefunc

2021-05-24 10:35:46 585 1

原创 Pandas 十八：数据转换函数map、apply、applymap

Pandas 十八：数据转换函数map、apply、applymap1. map用于Series值的转换方法1：Series.map(dict)方法2：Series.map(function)2. apply用于Series和DataFrame的转换3. applymap用于DataFrame所有值的转换数据转换函数对比：map、apply、applymap：map：只用于Series，实现每个值->值的映射；apply：用于Series实现每个值的处理，用于Dataframe实现某个轴的Se

2021-05-24 10:07:37 318 1

翻译 Pandas 十七：分层索引MultiIndex

Pandas 十七：分层索引MultiIndex一、Series的分层索引MultiIndex二、Series有多层索引MultiIndex怎样筛选数据？三、DataFrame的多层索引MultiIndex四、DataFrame有多层索引MultiIndex怎样筛选数据？为什么要学习分层索引MultiIndex？分层索引：在一个轴向上拥有多个索引层级，可以表达更高维度数据的形式；可以更方便的进行数据筛选，如果有序则性能更好；groupby等操作的结果，如果是多KEY，结果是分层索引，需要会使用一

2021-05-24 09:51:23 539

翻译 Pandas 十六：怎样实现groupby分组统计

Pandas 十六：怎样实现groupby分组统计一、分组使用聚合函数做数据统计1、单个列groupby，查询所有数据列的统计2、多个列groupby，查询所有数据列的统计3、同时查看多种数据统计4、查看单列的结果数据统计5、不同列使用不同的聚合函数二、遍历groupby的结果理解执行流程1、遍历单个列聚合的分组2、遍历多个列聚合的分组三、实例分组探索天气数据1、查看每个月的最高温度2、查看每个月的最高温度、最低温度、平均空气质量指数类似SQL：select city,max(temperature)

2021-05-21 16:14:27 1154

原创 Pandas 十五：批量拆分Excel与合并Excel

Pandas 十五：批量拆分Excel与合并Excel0、读取源Excel到Pandas一、将一个大Excel等份拆成多个Excel1、计算拆分后的每个excel的行数2、拆分成多个dataframe3、将每个datafame存入excel二、合并多个小Excel到一个大Excel1. 遍历文件夹，得到要合并的Excel名称列表2. 分别读取到dataframe3. 使用pd.concat进行合并4. 将合并后的dataframe输出到excel实例演示：1.将一个大Excel等份拆成多个Excel2

2021-05-21 15:10:17 598 2

翻译 Pandas 十四：concat实现数据的合并

Pandas 十四：实现数据的合并concat列表可以只有Series列表是可以混合顺序的一个空的df第一个入参是一个列表，避免了多次复制使用场景：批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列一句话说明concat语法：使用某种合并方式(inner/outer)沿着某个轴向(axis=0/1)把多个Pandas对象(DataFrame/Series)合并成一个。concat语法：pandas.concat(objs, axis=0, join=‘oute

2021-05-21 14:05:31 1358

原创 Pandas 十三：怎样实现DataFrame的Merge

Pandas 十三：怎样实现DataFrame的Merge1、电影数据集的join实例2、理解merge时数量的对齐关系2.1 one-to-one 一对一关系的merge2.2 one-to-many 一对多关系的merge2.3 many-to-many 多对多关系的merge3、理解left join、right join、inner join、outer join的区别3.1 inner join，默认3.2 left join3.3 right join3.4 outer join4、如果出现非K

2021-05-21 13:52:33 454

原创 Pandas 十二：索引index的用途

Pandas 十二：索引index的用途1、使用index查询数据2. 使用index会提升查询性能实验1：完全随机的顺序查询实验2：将index排序后的查询3. 使用index能自动对齐数据4. 使用index更多更强大的数据结构支持问题：index就是用于数据查询的，但是把数据列"存储于普通的column"和"存储于index"有什么区别？如果index只是用于数据筛选，区别确实不大不过index还有这些用途：更方便的数据查询；使用index可以获得性能提升；自动的数据对齐功能；更多更强

2021-05-20 16:39:59 572

原创 Pandas 十一：axis参数怎么理解？

Pandas 十一：axis参数怎么理解？1、单列drop，就是删除某一列2、单行drop，就是删除某一行3、按axis=0/index执行mean聚合操作4、按axis=1/columns执行mean聚合操作5、再次举例，加深理解axis=0或者"index"：如果是单行操作，就指的是某一行如果是聚合操作，指的是跨行cross rowsaxis=1或者"columns"：如果是单列操作，就指的是某一列如果是聚合操作，指的是跨列cross columns按哪个axis，就是这个axis要动起来

2021-05-20 16:28:51 271

原创 Pandas 十：字符串处理

Pandas 十：字符串处理0、读取北京2018年天气数据1、获取Series的str属性，使用各种字符串处理函数2、使用str的startswith、contains等得到bool的Series可以做条件查询3、需要多次str处理的链式操作4. 使用正则表达式的处理前面我们已经使用了字符串的处理函数：df[“bWendu”].str.replace(“℃”, “”).astype(‘int32’)Pandas的字符串处理：使用方法：先获取Series的str属性，然后在属性上调用函数；只能在字符

2021-05-20 16:13:19 799 1

原创 Pandas 九：数据排序

Pandas 九：数据排序0、读取数据1、Series的排序2、DataFrame的排序2.1 单列排序2.2 多列排序 Series的排序：Series.sort_values(ascending=True, inplace=False)参数说明：ascending：默认为True升序排序，为False降序排序inplace：是否修改原始Series DataFrame的排序：DataFrame.sort_values(by, ascending=True, inplace=False)

2021-05-20 14:48:58 178

翻译 Pandas 八：SettingWithCopyWarning报警

Pandas 八：SettingWithCopyWarning报警0、读取数据1、复现2、原因3、解决方法14、解决方法20、读取数据1import pandas as pdNo output2fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)No output3df.head()3ymd bWendu yWendu tianqi fengxiang fengli aqi

2021-05-20 14:33:06 175

翻译 Pandas 七：对缺失值的处理

Pandas 七：对缺失值的处理实例：特殊Excel的读取、清洗、处理步骤1：读取excel的时候，忽略前几个空行步骤2：检测空值步骤4：删除掉全是空值的行步骤5：将分数列为空的填充为0分步骤6：将姓名的缺失值填充步骤7：将清洗好的excel保存Pandas使用这些函数处理缺失值：isnull和notnull：检测是否是空值，可用于df和seriesdropna：丢弃、删除缺失值axis : 删除行还是列，{0 or ‘index’, 1 or ‘columns’}, default 0how

2021-05-20 11:05:12 406

转载 Pandas 六：数据统计函数

Pandas 六：数据统计函数0、读取csv数据1、汇总类统计2、唯一去重和按值计数2.1 唯一性去重2.2 按值计数3、相关系数和协方差汇总类统计唯一去重和按值计数相关系数和协方差1import pandas as pdNo output0、读取csv数据2fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)No output3df.head(3)3ymd bW

2021-05-19 17:21:30 201

原创 Pandas 五：怎样新增数据列

Pandas 五：怎样新增数据列0、读取csv数据到dataframe1、直接赋值的方法替换掉温度的后缀℃2、df.apply方法3、df.assign方法4、按条件选择分组分别赋值在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析。1.直接赋值2.df.apply方法3.df.assign方法4.按条件选择分组分别赋值1import pandas as pd0、读取csv数据到dataframe2fpath = "./datas/beijing_tianqi/b

2021-05-19 16:46:03 871 2

转载 Pandas 四：查询数据

Pandas查询数据的几种方法df.loc方法，根据行、列的标签值查询df.iloc方法，根据行、列的数字位置查询df.where方法df.query方法.loc既能查询，又能覆盖写入，强烈推荐！本文介绍的是Pandas使用df.loc查询数据的方法1.使用单个label值查询数据2.使用值列表批量查询3.使用数值区间进行范围查询4.使用条件表达式查询5.调用函数查询注意以上查询方法，既适用于行，也适用于列注意观察降维dataFrame>Series>值导入pa

2021-05-19 14:55:50 1115 1

原创 Pandas 三：数据结构

Pandas数据结构1. Series1.1 仅有数据列表即可产生最简单的Series1.2 创建一个具有标签索引的Series1.3 使用Python字典创建Series1.4 根据标签索引查询数据2. DataFrame2.1 根据多个字典序列创建dataframe3. 从DataFrame中查询出Series3.1 查询一列，结果是一个pd.Series3.2 查询多列，结果是一个pd.DataFrame3.3 查询一行，结果是一个pd.Series3.4 查询多行，结果是一个pd.DataFrame

2021-05-19 10:33:47 224 1

原创 Pandas 二：读取数据

Pandas 二：读取数据pandas读取纯文本文件读取csv文件读取txt文件pandas读取xlsx格式excel文件pandas读取mysql数据表加载Pandas库import pandas as pdpandas读取纯文本文件读取csv文件源数据：读取CSV，使用默认的标题行、逗号分隔符fpath = "E:/ratings.csv"使用pd.read_csv读取数据ratings = pd.read_csv(fpath)查看前几行数据print(ratings.he

2021-05-19 09:53:18 7986 1

转载 Pandas 一：简介

什么是Pandas?一个开源的Python类库：用于数据分析、数据处理、数据可视化高性能容易使用的数据结构容易使用的数据分析工具很方便和其它类库一起使用：numpy：用于数学计算scikit-learn：用于机器学习Pandas 概览Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具，其长远目标是成为最强大、最灵活、可以支持任何语言

2021-05-19 09:20:23 209

event-recommendation-engine-challenge.rar

hadoopstu.7z

USA Flight Datset - Spark Tutorial - Edureka.csv

hivestu.zip

flume-to-hdfs-jar1.rar

kafka_to_hbase（通过设计模式，一般main方法）

空空如也