自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (2)
  • 收藏
  • 关注

原创 动态交叉表(永洪bi)

根据选择字段组合生成一个只展示需要字段的表格,ok看脚本!//清空列表头交叉表1.binding.clearColHeaders();var arr_colhea=列表头.getSelectedObjects();var colhea_bcol=NULL;var dimcol_hea=NULL;var colhea_name=NULL;for(var i=0;i<arr_colhea.length;i++){colhea_name=arr_colhea[i;colhea_bcol=n

2021-04-14 10:33:06 1216 2

原创 永洪bi日志清理配置

在某些情况下,实时的数据更新会带来无意义的日志的增加,当日志过多时,磁盘被占用后,会出现一系列的问题,定时的清理日志是必要的。日志的分类大致有:1、Yonghong/logs 文件夹下面除了bi.log外,其他的都可以清理。在bi.properties里配置file.log.days=30也可调整为3天,意思是3天以上的bi.log的日志可以自动清理。注意:文件系统和数据系统配置添加位置有别:文件系统:添加在 $安装目录/Yonghong/bihome/bi.properties,添加后重启tomca

2021-04-14 10:12:51 467

原创 永洪背景图片修改

咱们除了支持修改logo后,还支持修改登录页面背景和首页背景图片。具体的效果如下:修改的步骤如下:1.在Yonhong/bihome下新建一个目录存放背景图片,或者直接使用该目录下的image文件夹,并将图片放进来。然后添加如下配置:company.logoFile=image //如果咱们在这之前已经修改过了logo那么咱们这个配置已经加过了。图片放在同一个目录下就好,不用重复加该配置。注意该文件夹的路径已经要是相对路径,直接写文件夹目录,而不是从根目录开写。2.login.background

2021-04-14 09:47:29 513

原创 永洪bi logo更换

产品可以自定义修改的的logo包括如下几个:登录页面logo,主页logo,侧边栏logo,网页logo,网站标题,版权说明,查看报告背景,集市管理背景。1.登录页面logo2.主页logo3.侧边栏logo4.网页logo5.网站标题6.版权说明7.查看报告背景8.集市管理背景修改步骤:(1)准备好相应的Logo图片格式jpg或png,网页logo图片最好是ico格式,网页Logo图片放置路径:永洪安装目录/Yonghong/bihome,其他图片路径:永洪安装目录/Y

2021-04-14 09:36:12 441 1

原创 考试总结

二简述题题目一:scala 源于java 但高于javaScala 的 类和方法的修饰符与java 不同Scala 默认是public java 默认是protectedJava 支持接口 scala 不支持接口 采用traitScala 支持函数式编程题目二:rdd 不支持sparlsqlDataFrame = rdd + schemaDataset = rdd + schema...

2020-03-15 10:17:16 166

原创 机器学习了解

分为有监督学习,无监督学习,强化学习3大类包括算法的核心点如类型,预测函数,求解的目标函数,求解算法。有监督学习(supervisedlearning)的样本数据带有标签值,它从训练样本中学习得到一个模型,然后用这个模型对新的样本进行预测推断。它的样本由输入值x与标签值y组成:其中x为样本的特征向量,是模型的输入值;y为标签值,是模型的输出值。标签值可以是整数也可以是实数,还可以是向量。有监...

2020-03-15 09:54:05 167

原创 统计航班飞行

统计航班飞行网图中机场的数量:301统计航班飞行网图中航线的数量:4088计算最长的飞行航线:Edge(12173,12478,4983)找出最繁忙的机场:(ATL,305)找出最重要机场:(10397,(ATL,11.06024770803224))import org.apache.spark.graphx._import org.apache.spark.rdd.RDDimpo...

2020-03-15 09:46:43 178

原创 sparkStreamMySql

import java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamMySql { def...

2020-02-26 20:14:28 142

原创 WindowTestHotWorld(spark)

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object WindowTestHotWorld { def main(args: Array[String]): Unit = { val conf = new SparkConf().se...

2020-02-26 20:11:41 126

原创 SparkStreamingRedisWC Demo(将数据写入到redis中)

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamingRedis { def main(args: Array[String]): Unit = { val conf = new SparkConf().s...

2020-02-15 11:07:36 165

原创 TransformDemo

import org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingC...

2020-02-15 11:06:26 74

原创 Spark checkPoint Demo

import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.streaming.dstream.ReceiverInputDStreamobject U...

2020-02-15 11:05:39 130

原创 数据说明: 姓名|网址|访问时间 需求:分别计算每个用户在页面的停留时长。写入MySQL。 结果数据: 用户 网址 停留时长

tom|www.baidu.com?page=1|2019-10-28 13:40:20jim|www.sohu.com?page=1|2019-10-28 13:40:25susan|www.zhihu.com?page=1|2019-10-28 13:40:28tom|www.baidu.com?page=2|2019-10-28 13:40:32tom|www.baidu.com?p...

2020-02-15 10:54:57 505

原创 将doctor的信息匹配一级科室。使用笛卡尔积匹配。 结果写入mysql。

doctor刘如恩,心血管内科,冠心病刘生旺,消化内科,脂肪性肝病韩岩,内科分泌,甲状腺疾病王强,妇科内分泌,不孕不育与辅助助孕马冬梅,产后妇科,妇科肿瘤疾病诊治冯利,小儿消化科,小儿消化系统疾病张中,小儿神经外科,神经导航下切除脑肿瘤刘宇,小儿骨科,小儿脊柱及矫形外科沈腾,创伤骨科,脊柱脊髓损伤玛丽,骨关节科,股骨颈骨折赵六,骨质疏松科,代谢性骨病的诊治departmen...

2020-02-15 10:53:36 171

原创 学科、姓名、分数。 分别计算每门学科分数最高的前三名,并显示名次。写入MySQL中。

hadoop,xiaoji,99hadoop,mingyang,98hadoop,susan,99spark,xiaoli,98spark,xiaohua,95hive,lele,89spark,zhangsan,99hive,tim,97hive,kebi,94hive,mike,99hadoop,xiaoming,96hive,susan,96spark,wenwen,...

2020-02-15 10:51:05 953

原创 计算每个省份的网页访问量。保存到问价里。

计算每个省份的网页访问量。保存到问价里。忽略:将结果放入到mysql中。access.log先把ip转换成10进制。ip -> longip-> t_accessip.txt取出来三个字段,startip、endip、province ->t_ipselect province,count(1)from t_accessjoint_ip on longip be...

2020-02-15 10:47:52 157

原创 高铁需求

数据源import java.util.Propertiesimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{DataFrame, SQLContext, SaveMode}object Need2 { def...

2020-02-15 10:39:30 525

原创 计算每个品牌每个月的销售额,到当前月的销售额,每个月到当前月的最大销售额

数据说明:日期,品牌,销售额计算每个品牌每个月的销售额,到当前月的销售额,每个月到当前月的最大销售额。结果展示:品牌 月份 当月销售额 截至到当前月的销售额 截至当前月的最大销售额1 100 100 1002 249 349 ...

2020-02-15 10:23:10 1390

原创 sparkWC MySql整合

import java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamMySql { de...

2020-02-15 10:19:15 85

原创 数据按照相同品牌的放入一个分区中,然后写一个消费者只消费改分区中的数据

*将以下数据按照相同品牌的放入一个分区中,然后写一个消费者只消费改分区中的数据,进行验证。tom,puma,400jim,nike,1000susan,nike,1200lele,adidas,800hua,nike,1300jim,puma,500lele,nike,500tom,puma,600lele,nike,700hua,adidas,1200分区器import ...

2020-02-15 10:15:57 124

原创 Spark原理刨析图

2020-01-27 15:13:39 111

原创 yarn的两种模式深入刨析

2020-01-25 12:33:53 93

原创 spark宽窄依赖

2020-01-24 23:25:06 119

原创 spark内核原理深度剖析

2020-01-24 22:34:27 138

原创 spark transformation 算子解析

map 算子解析filter算子解析flatmap算子groupbyke算子reducebykey算子sortbykey算子join算子cogroup算子

2020-01-24 15:25:27 127

原创 对学生成绩评测

import org.apache.spark.{SparkConf, SparkContext}object ZuotianTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[1]").setAppName("blog test") val ...

2020-01-13 15:40:03 1069

原创 豆瓣电影python爬虫top250

from lxml import etreeimport requestsheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}with open('mo...

2019-12-31 09:39:52 269

原创 python爬取豆瓣图书数据

from lxml import etreeimport requestsheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}with open('doub...

2019-12-31 08:35:40 978

原创 将json多行数据传入到mysql中使用python实现(简化版)

import jsonimport pymysqlcoon=pymysql.connect(host="192.168.67.41",port=3306,user="root",password="123456",db="weibo");cursor=coon.cursor();with open("data.txt","r",encoding="utf-8") as file: ...

2019-12-30 12:44:30 368

原创 ptyhon把josn多行数据写入到redis中

from redis import StrictRedisimport reimport jsonredis=StrictRedis(host="B02master",port=6379,db=0,password="");i=0with open("1049198655.txt","r",encoding="utf-8") as file: dats=file.re...

2019-12-30 10:53:01 150

原创 计算语文和数学成绩的总和java实现

Studentpublic class Student { private String name; private int yuwen; private int math; private int sum; public Student() { } @Override public String toString() {...

2019-12-30 09:17:04 933

原创 WordCount非MapReduce,用java代码实现

public static void main(String[] args) throws Exception { BufferedReader br = new BufferedReader(new FileReader("")); Map<String, Integer> map = new HashMap<String, Integer&gt...

2019-12-30 09:12:39 180

原创 将json多行数据传入到mysql中使用python实现

将json多行数据传入到mysql中使用python实现表需要提前创建,字符集utf8 如果不行换成utf8mb4import jsonimport pymysqldef reviewdata_insert(db): with open('data.txt', encoding='utf-8') as f: i = 0 while True: ...

2019-12-29 10:44:05 294

原创 Hadoop集群的搭建

集群搭建三台机器:1台NameNode、SecondaryNameNode (master)2台DataNode(slave1、slave2)上传解压tar包使用Xshell将hadoop的tar包上传到linux的指定目录下。解压tar包。tar -zxvf hadoop-2.7.3配置相关文件进入hadoop配置文件目录:修改运行环境vi hadoop-env.sh...

2019-10-07 16:56:44 160

原创 mapreduce运行机制详解

一个MapTask对应一个切片切片的计算:long splitSize = Math.max(minSize, Math.min(maxSize, blockSize))默认:minSize 1maxSize Long.MAX_VALUEblockSize 128splitSize默认是128M。FileInputFormat先扫描切片,每次扫描一行数据,调用RecordRe...

2019-10-07 16:34:40 152

原创 HDFS读写流程详解

首先我要将一个200M文件存到HDFS集群中。1.客户端通过RPC(远程服务)访问NameNode,请求写入一个文件。2.NameNode检查客户端是否有权限写入,如果有权限返回一个响应。如果没有客户端就会抛出一个异常。3.客户端会将文件按BlckSize大小(默认128M)将文件切分成一个一个Block块,然后请求写入第一个Block块。4.NameNode会根据它的负载均衡机制,给客...

2019-10-07 16:31:54 298

原创 WordCount面试

WordCount面试#Mapper端代码package Linux;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;im...

2019-10-07 16:25:42 156

Hadoop集群的搭建.docx

常见的启动错误 错误:启动完后,namenode的主机上没有出现namenode进程。 原因:没有进行namenode初始化。只初始化一次,以后不要初始化了。 错误:启动完后,datanode的主机上没有出现datanode进程。或者出现了多个datanode进行。 原因是:当第一次连接的时候,在datanode主机上存放临时文件的目录下(我的为hdptmp),hdptmp/dfs/data/current/version中保存了两个id号,当namenode主机格式化后会生成新的id,再次连接的时候,新的id与原来的id不匹配,所以就连接不上。 解决办法: 方法一: 将namenode和datanode中的/root/hadptmp/dfs/data/current中的VERSION中的clusterID改为一样的就可以了。 方法二: 删除namenode、datanode的临时文件目录(hdptmp) 再次初始化namenode 重新开启start-all.sh

2019-10-07

hadoop (1).docx

hadoop 简介 以及总复习的流程 常见的启动错误 错误:启动完后,datanode的主机上没有出现datanode进程。 原因是:当第一次连接的时候,在datanode主机上存放临时文件的目录下(我的为hdptmp),hdptmp/dfs/data/current/version中保存了两个id号,当namenode主机格式化后会生成新的id,再次连接的时候,新的id与原来的id不匹配,所以就连接不上。 解决办法: 删除namenode、datanode的临时文件目录(hdptmp) 再次初始化namenode 重新开启start-dfs.sh

2019-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除