![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
自由自在梦在何方
我追求完美,不奢求完美。
展开
-
apache drill简单试用
1 下载curl -Ohttps://mirrors.tuna.tsinghua.edu.cn/apache/drill/drill-1.17.0/apache-drill-1.17.0.tar.gztar zxvfapache-drill-1.17.0.tar.gz-C /opt/mv /opt/apache-drill-1.17.0 /opt/drill2 配置 con...原创 2020-03-16 21:33:41 · 621 阅读 · 0 评论 -
dataX简单使用
1 下载http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz2 直接解压使用tar zxvf datax.tar.gz -C /opt/3 配置各种jsonoracle到mysql的o2m.json{ "setting": {}, "job": { "setting": {...原创 2020-03-11 12:44:12 · 429 阅读 · 0 评论 -
spark 自定义累加器与自定义事件
1 可以实现简单的累加器,功能是只保存最后一个字符串。import org.apache.spark.util.AccumulatorV2;public class MyAccumulator extends AccumulatorV2<String, String> { private String str = ""; public MyAccumulat...原创 2019-12-30 10:13:58 · 219 阅读 · 0 评论 -
spark简单测试
1 通过shell直接submit2 通过Spark-shell执行 for i in {1..30};do spark-submit --class org.apache.spark.examples.JavaWordCount --master yarn --executor-memory 10g --driver-memory 20g --total-executor...原创 2019-12-24 15:57:41 · 623 阅读 · 0 评论 -
python ansible 简单使用
pip3 install ansiblemkdir /etc/ansiblevi /etc/ansible/hosts#配置好hostname,免密认证做好ansible all -m copy -a "src=/etc/hosts dest=/tmp/ owner=root group=root mode=0644"ansible all -a "ls -alh /tmp/hosts...原创 2019-12-09 18:13:43 · 137 阅读 · 0 评论 -
使用clickhouse
下载,安装centos版sudo yum install yum-utilssudo rpm --import https://repo.yandex.ru/clickhouse/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.yandex.ru/clickhouse/rpm/stable/x86_64...原创 2019-12-05 18:05:46 · 546 阅读 · 0 评论 -
kafka编译
git 下载代码切分支,进入目录。安装gradle: brew install gradle执行gradle执行 ./gradlew releaseTarGz -x signArchivescore/build/distributions目录下有生成的包。原创 2019-12-03 17:20:53 · 138 阅读 · 0 评论 -
pg简单使用
1 下载源码,编译2 /etc/profile配置环境变量,加入path;加PGDAGA=/home/pgdata3 初始化initdb -D $PGDATA4 启动pg_ctl start -D $PGDATA5psql postgres客户端连接6 查看create database db_hi;\c db_hi;create table hello(nam...原创 2019-12-03 15:35:36 · 1539 阅读 · 0 评论 -
hbase命令使用
hbase cellcounter table_hello /hello_cellshbase rowcounter table_hello统计表的cell数量,行的数量。hbase clean --cleanHdfs清理hdfs,需要关闭集群。hbase clean --cleanAllhbase clean --cleanZk...原创 2019-12-03 11:31:55 · 494 阅读 · 0 评论 -
flatMapValues区分
flatMapValues 将values先map,再flat得到元组。x = sc.parallelize([("a", ["1", "2", "3"]), ("b", ["123"])])def f(x): print(x);return x*3x.flatMap(f).collect()['a',['1', '2', '3'],'a',['1', '2', '3...原创 2019-11-28 15:35:30 · 868 阅读 · 0 评论 -
python spark
修改python版本为python3export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATHexport PYSPARK_PYTHON=/usr/bin/python3#export PYSPARK_DRIVER_PYTHON=/usr/bin/python3...原创 2019-11-23 16:41:18 · 197 阅读 · 0 评论 -
python z3处理命题逻辑
>>> solver.reset()>>> solver.add(Not(Implies(And(Implies(p,q),Implies(q,r)),Implies(p,r))))>>> solver.check()unsat>>> solver.reset()>>> solver.add(No...原创 2019-11-22 17:44:59 · 1233 阅读 · 0 评论 -
hadoop,hbase自定义Sink
1 import org.apache.commons.configuration.SubsetConfiguration;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.apache.hadoop.classification.InterfaceA...原创 2018-08-24 13:54:27 · 576 阅读 · 0 评论 -
求唯一列的M-R思路
在求唯一性的时候,可以直接判断退出。对于类似的问题,可以生成模板求解。import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class SecondarySortReducer extends Reduc...原创 2019-04-11 15:02:20 · 126 阅读 · 0 评论 -
HBase 自定义导入Mapper
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.mapper.class=org.apache.hadoop.hbase.mapreduce.TsvImporterUserMapper -Dimporttsv.bulk.output=/test/hello -Dimporttsv.separator="," -Dim...原创 2019-04-02 15:56:58 · 426 阅读 · 0 评论 -
概率图的应用
利用概率图做变量消除The junction tree algorithm1 画出有向图,连接父节点2 有向图化无向图3 三角剖分4 团算法原创 2019-07-05 16:28:24 · 546 阅读 · 0 评论 -
jmeter初探
因项目需要,简单了解下性能测试工具。Apache JMeter.1 加载pom依赖ApacheJMeter_core,ApacheJMeter_components,ApacheJMeter_http,junit2 配置jmeter.properties3 public static HTTPSamplerProxy createHTTPSamplerProxy() {...原创 2019-07-18 13:32:31 · 427 阅读 · 0 评论 -
矩阵求逆
矩阵求逆的一些算法:设,X待定。原创 2019-08-07 12:02:49 · 280 阅读 · 0 评论 -
贪心与拟阵
贪心问题,套路深,技巧强。不过有一类可以尝试化为拟阵来解决。拟阵matroid,广义拟阵greedoid拟阵上的贪心算法。Greedy(M,w): A={} sort M.S 单减 order by weight w for x in M.S: if A+{x} in M.T: A=A+{x} return A...原创 2019-03-15 15:21:47 · 387 阅读 · 0 评论 -
凸四边形的最小外接矩形
问题简单描述:已知凸四边形的四条边及对角线长度,求具有最小面积的外接矩形的面积。思路:1 最初上来,没好的想法只能遍历,绕某个点转360度,求解析解;2 发现不对,再遍历四个点;3 绕重心旋转,遍历求最优近似解;4 发现opencv有对应的函数minAreaRect,看源码或者调用5 发现有证明,某条边必在矩形上,化为只需求四次最优解;对每个需分析两个底角的钝角锐角情况...原创 2019-02-26 09:09:58 · 2608 阅读 · 0 评论 -
Kafka安装 (简单)
预装JDK1.8,Zookeeper安装Kafka Broker:tar zxvf kafka-2.11-1.1.1.tar.gz -C /opt/mv /opt/kafka-2.11-1.1.1 /opt/kafka启动:/opt/kafka/bin/kafka-server-start.sh -daemon /opt/kafka/config/server.properties...原创 2018-10-29 13:48:50 · 406 阅读 · 0 评论 -
安装hive 3.1.0 简记
tar zxvf /tmp/apache-hive-3.1.0-bin.tar.gz -C /opt/mv /opt/apache-hive-3.1.0-bin/ /opt/hivesed -i '/HIVE_HOME/d' /etc/profilesed -i '$a export HIVE_HOME=/opt/hive' /etc/profilesed -i '/$HIVE_HO...原创 2018-10-23 18:08:26 · 782 阅读 · 0 评论 -
spark-submit
spark 使用1 安装解压配置/etc/profile:SPARK_HOMEPATHcopy文件:core-site.xml hdfs-site.xml yarn-site.xml修改 spark-env.sh export HDFS_CONF_DIR=本地上面三个文件的目录copy jersey.jar包 并改名 yarn-site.xml中[YA...原创 2018-09-12 19:34:42 · 236 阅读 · 0 评论 -
hadoop ganglia-metric配置
*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31*.sink.ganglia.period=10namenode.sink.ganglia.tagsForPrefix.jvm=ProcessName #区分jvm是哪一个发过来的 产生文件:jvm.JvmMetrics.ProcessNa...原创 2018-08-22 14:07:57 · 321 阅读 · 0 评论 -
hadoop WordCount
1 pom.xml<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.4&a原创 2018-08-11 20:12:44 · 117 阅读 · 0 评论 -
hadoop remote debug
本地解压hadoop.tar.gzIDEA打开对应的pom文件。记得本地要装protoc .(本地为linux或mac)https://github.com/google/protobuf/releases/tag/v2.5.0MVN command line 里输入:package -DskipTests运行完成后,准备启动NameNode,设置好断点。remoted的Host...原创 2018-08-10 13:17:50 · 208 阅读 · 0 评论 -
初试flink
待补充...原创 2017-11-28 10:24:25 · 187 阅读 · 0 评论 -
充分统计量 因子分解定理证明 (转自维基)
https://en.wikipedia.org/wiki/Sufficient_statistic转载 2018-10-24 09:40:56 · 5650 阅读 · 0 评论 -
二叉树按运算符号最优化
1 根据原二叉树,初始化节点的深度,parent等2 遍历得到任意长度并标识parent3 同父且深度同,根据贪心算法得到最优。直至深度为0结束。其中 2通过广度遍历,如果与父节点符号相同,则高度一致,父节点等于父节点的parent;否则,高度加一,父节点等于该父节点。数据结构设计:1 NodeNew:Node,depth,parent2 Map<NodeNew ...原创 2018-11-07 17:50:34 · 240 阅读 · 0 评论 -
PDDL demo(转)
http://editor.planning.domains/#文件 domain(define (domain gripper-strips) (:predicates (room ?r) (ball ?b) (at ?b ?r) (at-robby ?r) ...转载 2019-01-09 10:06:01 · 645 阅读 · 1 评论 -
关于不等式优化的思路
对于不等式约束,可以化为图的遍历问题。想法:图中可能含有多个连通分支;图中可能有矛盾(如常量1<a<0,如变量闭环a<b<a);目标:找出每个变量最近的常量,可能两端,可能一段,可能没有大致思路:化为连通分支,遍历强连通分支,对于起始点,遍历,合并。实现效率分析:多项式时间,可以接受。...原创 2019-01-24 10:13:16 · 303 阅读 · 0 评论 -
逻辑化简思路
逻辑表达式化为析取式假设表达式只含有<=> => or and not1 去掉所有<=>2 去掉所有=>3 去掉所有not :利用摩根律和负负得正律4 分配律:(A+B)C=AC+BC,从而得到析取式 逻辑化简规则假设表达式只含有or and not原理:为化为合取式,求补的析取式。其中第四步是难点。1 求补2 ...原创 2019-01-01 10:20:44 · 1647 阅读 · 0 评论 -
任意多个区间的交,并
化简常量表达式可能会遇到任意多个区间的交,并。下面简单描述算法。一 任意多个交集合分为六种类型。1 单点集 x=a2 空集3 全集4 两个参数的区间 a<x<b5 正无穷 x>a6 负无穷 x<b 其中1,4可以多个。假设已经全为不交情形。两个上述六种类型的并的交:单点集,空集,全集都比较简单,可先不考虑。只考虑多个4,及...原创 2018-12-29 16:19:34 · 956 阅读 · 0 评论 -
prolog简记
http://www.swi-prolog.org/download/stablecentos-7: 源码解压,config && make && make installmac:dmg直接安装使用:1 交互式linux下敲:swipl进入交互式。|:后输入已知;?-后输入要判断的2 使用文件例:love.pllove(zhang...原创 2018-12-17 14:12:53 · 934 阅读 · 0 评论 -
py2neo使用
python3使用neo4j:py2neo v4https://py2neo.org/v4/https://github.com/technige/py2neo安装pip3 install py2neo简单使用:>>> from py2neo import *>>> graph = Graph(password='hello')>...原创 2018-12-05 11:25:25 · 1283 阅读 · 0 评论 -
linux neo4j使用
解压到/opt/下 tar zxvf /tmp/neo4j-community-3.4.10-unix.tar.gz -C /opt/ cd /opt/neo4j-community-3.4.10/ cd bin/ ./neo4j start ./neo4j status ./neo4j-shell -path /opt/neo4j-community-3.4.10/...原创 2018-12-04 14:48:19 · 1368 阅读 · 0 评论 -
图数据库 简介
neo4jtinkerpop:Apachegeabase:阿里简单使用neo4j:下载安装。概念: (1)Nodes(节点) (2)Relationships(关系)(3) Properties(属性)(4) Labels(标签)(5) Traversal(遍历)(6) Paths(路径)(7) Schema(模式,类似存储数据的结构)Indexes...原创 2018-11-26 15:05:03 · 1392 阅读 · 0 评论 -
机架感知
hdfs配置机架感知需要以下几步:1 配置core-site.xml文件。配置使用脚本或java类。2 把脚本或java类放到合适的位置。3 重启namenode或datanode。具体如下:1 java或脚本配置如下:<property> <name>topology.node.switch.mapping.impl</name>...原创 2018-11-21 14:26:31 · 141 阅读 · 0 评论 -
Lambda架构与Kappa架构
待补充...原创 2017-11-28 10:23:35 · 1994 阅读 · 1 评论