- 博客(316)
- 收藏
- 关注
原创 python 小提琴图和箱线图
1、作用绘制一个数值变量和一个分类变量之间的关系,小提琴图是较低级别的抽象2、绘制删除箱线图,可以在 violinplot 调用中设置 inner = Nonebase_color = sb.color_palette()[0]sb.violinplot(data = df, x = 'cat_var', y = 'num_var', color = base_color,inner =...
2020-03-18 20:04:13 830
原创 Python 散点图
1、作用研究两个数值变量之间的关系plt.scatter(data = df, x = 'num_var1', y = 'num_var2')#带有回归曲线sb.regplot(data = df, x = 'num_var1', y = 'num_var2')sb默认的回归函数是线性回归...
2020-03-18 00:41:40 632
原创 Python 直方图
1、和条形图的区别直方图的x轴代表的是区间范围,包含左边,不包含右边2、hist 函数会根据值的范围将数据分成 10 个组,df[‘num_var’].describe()估计组下限和组上限最合适arange 仅返回完全小于上限的值。“+1” 可有效地确保最右侧的分组边界至少是数据的最大值,以便所有数据点都能绘制出来import matplotlib as pltplt.hist(dat...
2020-03-17 20:29:10 1449
原创 Python 饼图
1、使用情况(1)整体是由哪几部分组成(2)绘制比较少的部分,比如两个到3部分,某些类别所占的比例很小,那可以将它们组合到一起,或者将这些比例很小的类别放到 “其他” 类别中(3)系统地绘制数据。绘制饼图的一种常见方法是从圆圈的顶部开始,然后沿着顺时针方向绘制每个分类级别,从最常见的到最不常见的排列。如果有三个类别,并且想要对比其中两个,一种常见绘制方法是将这两个类别放在 12 点钟方向的两...
2020-03-17 19:26:37 552
原创 Python条形图
1、条形图import seaborn as sb#data指pd的dataframe,x指的坐标,也可以设置为ysb.countplot(data = df, x = 'cat_var')#返回一个 RGB 元组列表,每个元组由三个数字组成,分别对应红绿蓝通道值,这三个值确定一个颜色sb.color_palette()#选择第一个base_color = sb.color_pale...
2020-03-16 22:36:30 382
原创 Python 可视化
1、类库Matplotlib:功能强大的数据可视化库,但是画一些常用的图也可能需要花时间研究代码。Seaborn:架构在 matplotlib 的基础上,但添加了一些函数或方法,使常见的统计可视化变得更便捷。pandas:虽然这个库包含一些便捷的、基于 matplotlib 的数据可视化方法,但是它的主要功能是进行数据处理,我们也会将其视为处理数据的主要工具。...
2020-03-13 23:48:25 232
原创 python清理数据
1、替换列里的内容# 使用字符串分割,删除每个动物名称前面的 'bb' df_clean['Animal'] = df_clean['Animal'].str[2:]# 在体重和脑重量两列,将 ! 替换为 . df_clean['Body weight (kg)'] = df_clean['Body weight (kg)'].str.replace('!', '.')df_clean[...
2020-03-13 23:23:21 266
原创 python 评估数据
从两个方面评估:数据质量问题(即内容问题)和整洁度(即结构性问题)。(1)脏数据:不准确、损坏的、重复的数据(2)messy data:不整洁,整洁的数据就是一行一列...
2020-03-12 18:28:57 332
原创 python收集数据
1、request库import requestsresponse=request.get(url)response.content//得到了字节,而不是text2、beautifulsoup 解析html3、word_cloud可视化库
2020-03-11 22:47:38 433
原创 数据分析
收集、评估、清洗import pandas as pdimport zipfile# 从压缩文件中提取所有内容with zipfile.ZipFile('armenian-online-job-postings.zip', 'r') as myzip: myzip.extractall()# 读取逗号分隔文件到 DataFramedf = pd.read_csv('onlin...
2020-03-08 21:47:56 156
原创 Jquery 技巧
1、通过button 的onclick传参<td><button class="icon-edit button border-main" type="button" name="update1" onclick="update('${obj.userName}')" value="${obj.userName}">更新</button></td>...
2020-03-02 00:09:23 107
原创 springboot配置详解
@EnableAutoConfiguration:开启自动配置功能;将主配置类(@SpringBootApplication标注的类)的所在包及下面所有子包里面的所有组件扫描到Spring容器;都在spring-boot-autoconfigure-1.5.9.RELEASE.jarSpring Boot在启动的时候从类路径下的META-INF/spring.factories中获取Enab...
2020-02-02 18:41:03 145
原创 springboot
1、新建maven工程,jar工程2、配置maven jdk1.8<profile> <id>jdk‐1.8</id> <activation> <activeByDefault>true</activeByDefault> <jdk>1.8</jdk> </activation&g...
2020-02-02 18:08:02 113
原创 hadoop dir
core.xmlkeyvaluehadoop.tmp.dir/tmp/hadoop-${user.name}fs.protected.directoriesfs.s3a.committer.staging.tmp.pathtmp/staginghdfs.xmlkeyvaluedfs.namenode.name.dirfile:/...
2020-01-10 11:29:55 227
原创 数据一致性
保证数据一致性的方法有很多,比如依赖数据库事务的原子性,将两个操作放在同一个事务中执行。但是,这样的做法不够灵活,因为我们的有可能做了分库分表,支付涉及的两个账户可能存储在不同的库中,无法直接利用数据库本身的事务特性,在一个事务中执行两个账户的操作。当然,我们还有一些支持分布式事务的开源框架,但是,为了保证数据的强一致性,它们的实现逻辑一般都比较复杂、本身的性能也不高,会影响业务的执行时间。所以,...
2020-01-08 10:50:56 247
原创 封装、继承、多态、组合
关于封装特性封装也叫作信息隐藏或者数据访问保护。类通过暴露有限的访问接口,授权外部仅能通过类提供的方式来访问内部信息或者数据。它需要编程语言提供权限访问控制语法来支持,例如 Java 中的 private、protected、public 关键字。封装特性存在的意义,一方面是保护数据不被随意修改,提高代码的可维护性;另一方面是仅暴露有限的必要接口,提高类的易用性。关于抽象特性封装主要讲如何隐...
2020-01-06 15:46:32 401
原创 队列
高性能队列Disruptor、Linux环形缓存用到了循环并发队列Java concurrent并发包利用ArrayBlockingQueu实现公平锁循环队列:队空head==tail,队满(tail+1)%n=head,取余是为了将tail的值降到[0,n-1]的区间,而且为了从头取出数据时,也必须head=(head+1)%n;同时,循环队列为了进行队满和队空的区分,浪费了一个存储空间阻...
2019-12-22 21:33:39 154
原创 redis 3.x版本安装
1、make: *** [all] Error 2解决:没用gcc安装过程yum install cppyum install binutilsyum install glibcyum install glibc-kernheadersyum install glibc-commonyum install glibc-develyum install gccyum in...
2019-12-18 14:47:50 232
原创 spark conf port
conf:keyvaluespark.ui.port4040spark.shuffle.service.port7337spark.blockManager.port随机,blockmanager监听的端口spark.driver.blockManager.port等于spark.blockManager.portspark.driver.po...
2019-11-21 14:21:12 287
原创 spark on yarn
1、HADOOP_CONF_DIR or YARN_CONF_DIR:write to HDFS and connect to the YARN ResourceManager2、(1)cluster mode:(2)client mode:(3)例子$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ -...
2019-11-12 22:34:24 147
原创 spark Cluster Mode
1、SparkContext 和cluster manager(standalone、yarn等)建立连接,给APP分配资源2、获得executor3、发送jar给executor4、sparkContext发送task给executornote:1、每个application都是独立的,driver端调度task,executor端task运行在不同的jvm上术语Term...
2019-11-12 10:51:20 232
原创 spark conf
1、Spark properties :设置application的参数,可以通过SparkConf和Javasystem properties2、环境变量:conf/spark-env.sh3、日志:log4j.properties4、例子./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog....
2019-11-11 22:52:28 594
原创 Submitting application
1、assembly jar2、跟spark和hadoop相关的pom要用provided3、命令./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<v...
2019-11-11 17:20:16 471
原创 Spark Standalone Mode
1、启动脚本./sbin/start-master.sh输出一个URL: spark://HOST:PORT默认WebUI上有: http://localhost:8080./sbin/start-slave.sh <master-spark-URL>-h HOST, --host HOST-p PORT, --port PORTPort for s...
2019-11-11 15:14:15 289
原创 flume kafka错误
1、在flume日志中出现warn级别的errorError while fetching metadata with correlation id {} default-flume-topic=LEADER_NOT_AVAILABLE解决:先在kafka中创建topic
2019-10-30 15:26:26 235
原创 flume 高可用集群
https://blog.csdn.net/jinYwuM/article/details/82594618https://blog.csdn.net/aA518189/article/details/80888306
2019-10-26 19:35:02 171
原创 消息队列的存储
kafka的存储以partition为单位,每个partition包含一组消息文件(Segment file)和一组索引文件(index),并且消息文件和索引文件一一对应,具有相同的文件名(扩展名不同),文件名就是这个文件中第一条消息的索引序号每个索引中保存索引序号(这条消息在这个分区中的第几条消息)和对应的消息在消息文件中的绝对位置。kafka采用的是稀疏索引,为了节省存储空间,不会为每条消息...
2019-10-15 20:54:52 876
原创 spark Streaming 部署jar
部署application1、集群2、打包成jar3、给executor配置足够的内存4、配置checkpoint5、配置automatic restart of the application driver6、配置write-ahead logs spark.streaming.receiver.writeAheadLog.enable=trueStorageLevel.MEMOR...
2019-10-08 13:45:20 275
原创 Azkaban 使用
Azkaban 内置的任务类型支持 command、java1)创建 job 描述文件vim first.job#first.jobtype=commandcommand=sh p1.shp1.sh如果是相对路径,需要和first.job打包到一起,否则需要写成绝对路径,才能找到这个p1.sh将 job 资源文件打包成 zip 文件zip first.zip first.job...
2019-10-05 17:39:58 303
原创 集群监控:Ambari和Cloudera Manger
运维过hadoop集群的人都应该清楚,hadoop生态从安装、配置到后期运维是一个非常艰辛的过程,一般来说安装hadoop可能就需要几天时间,运维一个小型集群同样需要几个人。ambari和cloudera Manager这两个系统,目的就是简化hadoop生态集群的安装、配置,同时提高hadoop运维效率,以及对hadoop集群进行监控。Ambari是Apache软件基金顶级项目,它是一个基于w...
2019-10-05 02:17:57 333
原创 Azkaban 问题
ERROR [PluginCheckerAndActionsLoader] [Azkaban] plugin path plugins/triggers doesn't exist!Azkaban hdfs plugin 配置https://blog.csdn.net/liumu243/article/details/81288884
2019-10-05 02:02:50 747
原创 Azkaban 配置
下载地址:http://azkaban.github.io/downloads.htmla) azkaban-web-server-2.5.0.tar.gzb) azkaban-executor-server-2.5.0.tar.gzc) azkaban-sql-script-2.5.0.tar.gzd) mysql-libs.zip2) 选择 Mysql 作为 Azkaban 数据库,...
2019-10-05 01:02:03 566
原创 Azkaban
Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流...
2019-10-04 21:47:23 144
原创 flink kafka 保证 Exactly Once 语义
flink 通过checkpoint机制来定期保存计算任务的快照,包含两个重要的参数:1、整个计算任务的状态,2、数据源的位置信息,比如kafka的offsetflink通过数据流中插入一个barrier(屏障)来确保checkpoint中的位置和状态完全对应kafka的exactly once语义通过事务和生产幂等共同实现端到端的exactly once指的是数据从kafka的A主题...
2019-10-04 20:25:35 440
原创 flume 选择器
让不同的项目日志通过不同的channel到不同的sink中去。Flume Channel Selectors使用https://blog.csdn.net/xiao_jun_0820/article/details/38116103
2019-10-04 19:59:31 402
原创 ganglia配置
1、安装 httpd 服务与 php sudo yum -y install httpd php2、安装其他依赖 sudo yum -y install rrdtool perl-rrdtool rrdtool-devel sudo yum -y install apr-devel3、安装gangliasudo rpm -Uvh http://dl.fedoraproject.or...
2019-10-04 19:55:53 281
原创 Kafka 监控
system-config.properties:如果是老版本,这里是zk或者zookeepercluster1.kafka.eagle.offset.storage=kafka
2019-10-04 15:45:36 159
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人