- 博客(17)
- 资源 (22)
- 问答 (2)
- 收藏
- 关注
原创 rdkit2019.09.1.0 python3.7 安装和使用
0 环境: python版本:python3.7 (anaconda) rdkit版本:2019.09.1.0 # 不同版本api不同 具体api参考官方文档 #从2019.03版本开始,RDKit不再支持Python2。如果需要继续使用Python 2,请坚持使用2018.09版本周期中的一个版本 pycharm:2019.03 ...
2019-12-24 23:56:19 3277
原创 python转换超大文本编码格式(gbk转utf8)
with open(r'C:\D\stj.txt',encoding='gbk', errors='ignore') as f: while True: res = f.read(102400) # 越大越快;过大会内存溢出报错 if res: open(r"C:\D\res",'a',encoding="utf8",erro...
2019-12-19 10:14:12 963
原创 flink-redis连接器 pom文件
<dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.0</version&g...
2019-12-09 17:08:13 687
原创 flink pom.xml -尚硅谷b站-flink 1.7.2
https://www.bilibili.com/video/av77403752?p=6flink 1.7.2scala 2.11wordcount报错请导入 import org.apache.flink.streaming.api.scala._<?xml version="1.0" encoding="UTF-8"?><project xmlns...
2019-12-08 15:54:10 769
原创 hive join图解-和spark-sql对比
join // inner on a.id=b.id; 返回id编号的交集 行left join // outer on a.id=b.id; 返回a的所有id行;无匹配字段为nullright join // outer on a.id=b.id; 返回b的所有id行;无匹配字段为nullfull join ...
2019-12-05 22:07:11 420
原创 spark partitionby代码示例
package com.yyimport org.apache.spark.Partitionerimport org.apache.spark.sql.expressions.{Aggregator, MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{Do...
2019-12-04 20:25:52 691
原创 spark-dataframe转map字典
原数据:{"Make":"Honda","Model":"Pilot","RetailValue":32145.0,"Stock":4}{"Make":"Honda","Model":"Civic","RetailValue":19575.0,"Stock":11}{"Make":"Honda","Model":"Ridgeline","RetailValue":42870.0,"...
2019-12-04 11:18:05 4240
原创 spark sql UDAF-个人理解
存储为idea模板 使用时改吧改吧class MyUDAF extends UserDefinedAggregateFunction { // https://docs.databricks.com/spark/latest/spark-sql/udaf-scala.html // 1 输入数据的类型 // This is the input fields for ...
2019-12-03 16:41:32 227
原创 spark sql udf 两种写法用法
package com.yyimport org.apache.spark.sql.{DataFrame, Row, SparkSession}object CountPeopleInfo {// case class mydate(y: Int, m: Int, d: Int) extends Serializable def main(args: Array[String...
2019-12-03 15:07:21 366
原创 spark dataset 分组求极值
原始数据:+-----+---+| sex|age|+-----+---+|women| 35|| man| 3||women| 27|| man| 51||women| 34|| man| 26|| man| 49||women| 7|| man|119|| man|128||women|129||women| 41|| man| 33...
2019-12-03 00:14:44 257
cdh继承tez引擎 cdh添加tez引擎 hive引擎增加
2021-07-07
dist.zip是redashV8.0.0dockr部署过程中npm产生的文件
2021-01-28
许多点之间连线最短 python实现
2019-05-02
presto开启https配置好后无法成功启动
2021-01-15
idea的git插件里面的auto fetch有啥用,有什么存在的必要?能方便我们什么?
2020-12-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人