大数据一叶扁舟-CSDN博客

原创动态交叉表（永洪bi）

根据选择字段组合生成一个只展示需要字段的表格，ok看脚本！//清空列表头交叉表1.binding.clearColHeaders();var arr_colhea=列表头.getSelectedObjects();var colhea_bcol=NULL;var dimcol_hea=NULL;var colhea_name=NULL;for(var i=0;i<arr_colhea.length;i++){colhea_name=arr_colhea[i;colhea_bcol=n

2021-04-14 10:33:06 1223 2

原创永洪bi日志清理配置

在某些情况下，实时的数据更新会带来无意义的日志的增加，当日志过多时，磁盘被占用后，会出现一系列的问题，定时的清理日志是必要的。日志的分类大致有：1、Yonghong/logs 文件夹下面除了bi.log外，其他的都可以清理。在bi.properties里配置file.log.days=30也可调整为3天，意思是3天以上的bi.log的日志可以自动清理。注意：文件系统和数据系统配置添加位置有别：文件系统：添加在 $安装目录/Yonghong/bihome/bi.properties,添加后重启tomca

2021-04-14 10:12:51 468

原创永洪背景图片修改

咱们除了支持修改logo后，还支持修改登录页面背景和首页背景图片。具体的效果如下：修改的步骤如下：1.在Yonhong/bihome下新建一个目录存放背景图片，或者直接使用该目录下的image文件夹，并将图片放进来。然后添加如下配置：company.logoFile=image //如果咱们在这之前已经修改过了logo那么咱们这个配置已经加过了。图片放在同一个目录下就好，不用重复加该配置。注意该文件夹的路径已经要是相对路径，直接写文件夹目录，而不是从根目录开写。2.login.background

2021-04-14 09:47:29 514

原创永洪bi logo更换

产品可以自定义修改的的logo包括如下几个：登录页面logo，主页logo,侧边栏logo,网页logo，网站标题，版权说明，查看报告背景，集市管理背景。1.登录页面logo2.主页logo3.侧边栏logo4.网页logo5.网站标题6.版权说明7.查看报告背景8.集市管理背景修改步骤：（1）准备好相应的Logo图片格式jpg或png，网页logo图片最好是ico格式，网页Logo图片放置路径：永洪安装目录/Yonghong/bihome，其他图片路径：永洪安装目录/Y

2021-04-14 09:36:12 444 1

原创考试总结

二简述题题目一：scala 源于java 但高于javaScala 的类和方法的修饰符与java 不同Scala 默认是public java 默认是protectedJava 支持接口 scala 不支持接口采用traitScala 支持函数式编程题目二：rdd 不支持sparlsqlDataFrame = rdd + schemaDataset = rdd + schema...

2020-03-15 10:17:16 167

原创机器学习了解

分为有监督学习，无监督学习，强化学习3大类包括算法的核心点如类型，预测函数，求解的目标函数，求解算法。有监督学习（supervisedlearning）的样本数据带有标签值，它从训练样本中学习得到一个模型，然后用这个模型对新的样本进行预测推断。它的样本由输入值x与标签值y组成：其中x为样本的特征向量，是模型的输入值；y为标签值，是模型的输出值。标签值可以是整数也可以是实数，还可以是向量。有监...

2020-03-15 09:54:05 168

原创统计航班飞行

统计航班飞行网图中机场的数量：301统计航班飞行网图中航线的数量：4088计算最长的飞行航线：Edge(12173,12478,4983)找出最繁忙的机场：(ATL,305)找出最重要机场：(10397,(ATL,11.06024770803224))import org.apache.spark.graphx._import org.apache.spark.rdd.RDDimpo...

2020-03-15 09:46:43 178

原创 sparkStreamMySql

import java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamMySql { def...

2020-02-26 20:14:28 142

原创 WindowTestHotWorld(spark)

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object WindowTestHotWorld { def main(args: Array[String]): Unit = { val conf = new SparkConf().se...

2020-02-26 20:11:41 126

原创 SparkStreamingRedisWC Demo(将数据写入到redis中)

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamingRedis { def main(args: Array[String]): Unit = { val conf = new SparkConf().s...

2020-02-15 11:07:36 167

原创 TransformDemo

import org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingC...

2020-02-15 11:06:26 74

原创 Spark checkPoint Demo

import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.streaming.dstream.ReceiverInputDStreamobject U...

2020-02-15 11:05:39 130

原创数据说明：姓名|网址|访问时间需求：分别计算每个用户在页面的停留时长。写入MySQL。结果数据：用户网址停留时长

2020-02-15 10:54:57 506

原创将doctor的信息匹配一级科室。使用笛卡尔积匹配。结果写入mysql。

doctor刘如恩,心血管内科,冠心病刘生旺,消化内科,脂肪性肝病韩岩,内科分泌,甲状腺疾病王强,妇科内分泌,不孕不育与辅助助孕马冬梅,产后妇科,妇科肿瘤疾病诊治冯利,小儿消化科,小儿消化系统疾病张中,小儿神经外科,神经导航下切除脑肿瘤刘宇,小儿骨科,小儿脊柱及矫形外科沈腾,创伤骨科,脊柱脊髓损伤玛丽,骨关节科,股骨颈骨折赵六,骨质疏松科,代谢性骨病的诊治departmen...

2020-02-15 10:53:36 171

原创学科、姓名、分数。分别计算每门学科分数最高的前三名，并显示名次。写入MySQL中。

hadoop,xiaoji,99hadoop,mingyang,98hadoop,susan,99spark,xiaoli,98spark,xiaohua,95hive,lele,89spark,zhangsan,99hive,tim,97hive,kebi,94hive,mike,99hadoop,xiaoming,96hive,susan,96spark,wenwen,...

2020-02-15 10:51:05 953

原创计算每个省份的网页访问量。保存到问价里。

计算每个省份的网页访问量。保存到问价里。忽略：将结果放入到mysql中。access.log先把ip转换成10进制。ip -> longip-> t_accessip.txt取出来三个字段，startip、endip、province ->t_ipselect province,count(1)from t_accessjoint_ip on longip be...

2020-02-15 10:47:52 157

原创高铁需求

数据源import java.util.Propertiesimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{DataFrame, SQLContext, SaveMode}object Need2 { def...

2020-02-15 10:39:30 525

原创计算每个品牌每个月的销售额，到当前月的销售额，每个月到当前月的最大销售额

数据说明：日期，品牌，销售额计算每个品牌每个月的销售额，到当前月的销售额，每个月到当前月的最大销售额。结果展示：品牌月份当月销售额截至到当前月的销售额截至当前月的最大销售额1 100 100 1002 249 349 ...

2020-02-15 10:23:10 1394

原创 sparkWC MySql整合

import java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamMySql { de...

2020-02-15 10:19:15 85

原创数据按照相同品牌的放入一个分区中，然后写一个消费者只消费改分区中的数据

*将以下数据按照相同品牌的放入一个分区中，然后写一个消费者只消费改分区中的数据，进行验证。tom,puma,400jim,nike,1000susan,nike,1200lele,adidas,800hua,nike,1300jim,puma,500lele,nike,500tom,puma,600lele,nike,700hua,adidas,1200分区器import ...

2020-02-15 10:15:57 125

原创 Spark原理刨析图

2020-01-27 15:13:39 111

原创 yarn的两种模式深入刨析

2020-01-25 12:33:53 94

原创 spark宽窄依赖

2020-01-24 23:25:06 119

原创 spark内核原理深度剖析

2020-01-24 22:34:27 142

原创 spark transformation 算子解析

map 算子解析filter算子解析flatmap算子groupbyke算子reducebykey算子sortbykey算子join算子cogroup算子

2020-01-24 15:25:27 127

原创对学生成绩评测

import org.apache.spark.{SparkConf, SparkContext}object ZuotianTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[1]").setAppName("blog test") val ...

2020-01-13 15:40:03 1069

原创豆瓣电影python爬虫top250

from lxml import etreeimport requestsheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}with open('mo...

2019-12-31 09:39:52 269

原创 python爬取豆瓣图书数据

from lxml import etreeimport requestsheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}with open('doub...

2019-12-31 08:35:40 982

原创将json多行数据传入到mysql中使用python实现(简化版)

import jsonimport pymysqlcoon=pymysql.connect(host="192.168.67.41",port=3306,user="root",password="123456",db="weibo");cursor=coon.cursor();with open("data.txt","r",encoding="utf-8") as file: ...

2019-12-30 12:44:30 368

原创 ptyhon把josn多行数据写入到redis中

from redis import StrictRedisimport reimport jsonredis=StrictRedis(host="B02master",port=6379,db=0,password="");i=0with open("1049198655.txt","r",encoding="utf-8") as file: dats=file.re...

2019-12-30 10:53:01 150

原创计算语文和数学成绩的总和java实现

Studentpublic class Student { private String name; private int yuwen; private int math; private int sum; public Student() { } @Override public String toString() {...

2019-12-30 09:17:04 935

原创 WordCount非MapReduce,用java代码实现

public static void main(String[] args) throws Exception { BufferedReader br = new BufferedReader(new FileReader("")); Map<String, Integer> map = new HashMap<String, Integer&gt...

2019-12-30 09:12:39 180

原创将json多行数据传入到mysql中使用python实现

将json多行数据传入到mysql中使用python实现表需要提前创建，字符集utf8 如果不行换成utf8mb4import jsonimport pymysqldef reviewdata_insert(db): with open('data.txt', encoding='utf-8') as f: i = 0 while True: ...

2019-12-29 10:44:05 296

原创 Hadoop集群的搭建

集群搭建三台机器：1台NameNode、SecondaryNameNode （master）2台DataNode（slave1、slave2）上传解压tar包使用Xshell将hadoop的tar包上传到linux的指定目录下。解压tar包。tar -zxvf hadoop-2.7.3配置相关文件进入hadoop配置文件目录：修改运行环境vi hadoop-env.sh...

2019-10-07 16:56:44 162

原创 mapreduce运行机制详解

一个MapTask对应一个切片切片的计算：long splitSize = Math.max(minSize, Math.min(maxSize, blockSize))默认：minSize 1maxSize Long.MAX_VALUEblockSize 128splitSize默认是128M。FileInputFormat先扫描切片，每次扫描一行数据，调用RecordRe...

2019-10-07 16:34:40 153

原创 HDFS读写流程详解

首先我要将一个200M文件存到HDFS集群中。1.客户端通过RPC（远程服务）访问NameNode，请求写入一个文件。2.NameNode检查客户端是否有权限写入，如果有权限返回一个响应。如果没有客户端就会抛出一个异常。3.客户端会将文件按BlckSize大小（默认128M）将文件切分成一个一个Block块，然后请求写入第一个Block块。4.NameNode会根据它的负载均衡机制，给客...

2019-10-07 16:31:54 299

原创 WordCount面试

WordCount面试#Mapper端代码package Linux;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;im...

2019-10-07 16:25:42 157

Hadoop集群的搭建.docx

常见的启动错误错误：启动完后，namenode的主机上没有出现namenode进程。原因：没有进行namenode初始化。只初始化一次，以后不要初始化了。错误：启动完后，datanode的主机上没有出现datanode进程。或者出现了多个datanode进行。原因是：当第一次连接的时候，在datanode主机上存放临时文件的目录下（我的为hdptmp），hdptmp/dfs/data/current/version中保存了两个id号，当namenode主机格式化后会生成新的id，再次连接的时候，新的id与原来的id不匹配，所以就连接不上。解决办法：方法一：将namenode和datanode中的/root/hadptmp/dfs/data/current中的VERSION中的clusterID改为一样的就可以了。方法二：删除namenode、datanode的临时文件目录（hdptmp）再次初始化namenode 重新开启start-all.sh

2019-10-07

hadoop (1).docx

hadoop 简介以及总复习的流程常见的启动错误错误：启动完后，datanode的主机上没有出现datanode进程。原因是：当第一次连接的时候，在datanode主机上存放临时文件的目录下（我的为hdptmp），hdptmp/dfs/data/current/version中保存了两个id号，当namenode主机格式化后会生成新的id，再次连接的时候，新的id与原来的id不匹配，所以就连接不上。解决办法：删除namenode、datanode的临时文件目录（hdptmp）再次初始化namenode 重新开启start-dfs.sh

2019-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人