持续更新中
一些持续更新的博文
微电子学与固体电子学-俞驰
如切如磋,如琢如磨,臻于至善。
展开
-
kafka的消费隔离级别(持续更新中)
隔离级别 具体代码 Read uncommitted properties.put(ConsumerConfig.ISOLATION_LEVEL_CONFIG,"read_uncommitted"); Read committed properties.put(ConsumerConfig.ISOLATION_LEVEL_CONFIG,"read_committed"); kafka的消费有没有其他级别不知道,目前常用的就这两种吧,待更。具...原创 2021-03-11 14:26:41 · 906 阅读 · 0 评论 -
kafka彻底删除topic(cleanup policy)、清除特定topic数据
①$KAFKA/bin/kafka-topics.sh --delete --zookeeper Desktop:2181 --topic test-0921②$ZOOKEEPER/bin/zkCli.sh -server Desktop:2181delete /config/topics/test-0921deleteall /brokers/topics/test-0921原创 2020-06-26 20:53:41 · 2466 阅读 · 0 评论 -
mysql8報錯解決方案彙總(持續更新中)
報錯碼 原因 ERROR 1141 (42000) 沒有進行這樣的授權原创 2021-01-27 19:47:16 · 196 阅读 · 0 评论 -
Linux下面护眼软件汇总
护眼软件 备注 f.lux redshift gnome Night Light原创 2021-01-11 22:11:04 · 586 阅读 · 0 评论 -
hive的错误编码+解决方案汇总(持续更新中)
我在尝试导入hive的udtf的时候碰到了这么个问题:###########################所以我想了个办法,找一个之前已经运行成功的HelloUdf,发现是正常导入的,这说明我的集群环境没有问题。0: jdbc:hive2://Desktop:10000> create temporary function sayHello2 as ‘HelloUdf’;No rows affected (0.155 seconds)###########################原创 2020-12-19 19:19:34 · 746 阅读 · 1 评论 -
hadoop+hive+flink+hbase交互的版本兼容性
hadoop,hive,flink交互的版本兼容性(明天再说)原创 2020-12-21 23:49:58 · 2589 阅读 · 0 评论 -
flink中scala与java两种写法对照(持续更新中)
java scala public class HDFS_Read_Write object HDFS_Read_Write public static void main(String[] args) throws Exception { } def main(args: Array[String]): Unit = { xxxx } ExecutionEnvironment env = ExecutionEnvironment.g原创 2020-12-13 21:31:16 · 913 阅读 · 0 评论 -
spring架构整理
架构如下:上面的ORM包含了hibernate和mybatis也就是ssh组合和ssm组合中的h与m。AOP IOC被包含在哪里???????Reference:[1]Spring体系结构详解[2]spring框架 技术体系介绍[3]Spring 核心框架体系结构[4](3)spring5的体系架构[5]【Spring】———spring核心架构体系(一)[6]SpringMVC体系分层模式(详细图文讲解)[7]10分钟详解Sprin...转载 2020-11-19 23:52:25 · 246 阅读 · 0 评论 -
大数据集群某节点彻底损毁后重装系统恢复(持续更新中)
如果某个节点彻底损毁,重装系统,那么需要的步骤如下:目的 操作步骤 节点之间配置文件是否完全一致 需要各个节点分别启动 Hadoop修复 mkdir -p ~/dfs/name hadoop namenode -format start /home/appleyuchi/dfs/data/current/VERSION中的cluster-ID改成$HADOOP_HOME/logs/hadoop-appleyuchi-datanode-.原创 2020-09-27 21:10:16 · 566 阅读 · 0 评论 -
流计算程序不报错,但是没有输出的一些原因(持续更新中)
①集群运行后打印的内容在$FLINK_HOME/logs里面②没有print()语句③忘记写execute()④keyby()或者filter注释后重新运行⑤没有对窗口进行trigger⑥没有满足waterMark触发条件⑦没有满足window的触发条件Reference:[1]flink的datastream进行join操作没有输出结果一例...原创 2020-09-27 12:33:25 · 1616 阅读 · 1 评论 -
superset各种数据库连接地址(持续更新中)
superset界面中:Sources->Databases;目前已经测试的数据库如下:数据库类型 连接地址 Sqlite3 sqlite:////home/appleyuchi/.superset/superset.db Hive Clickhouse Hbase Mysql Mongodb Reference:[1]数据可视化--Superset使用示例...原创 2020-09-15 19:33:43 · 2596 阅读 · 1 评论 -
Backbone发展与语义分割网络发展
整理如下(按照arxiv上面时间线的预印版本来整理):Backbone(基础网络,也可以理解为分类网络):Backbone可以塞入UNET作为使用。年代 网络名称与代码 论文名称 1989 LeNet Backpropagation Applied to Handwritten Zip Code Recognition 1995 Le...原创 2019-11-12 17:35:47 · 2160 阅读 · 0 评论 -
it招聘的一些门道与招聘数据分析(持续更新)
经常有知乎帖子忽悠观众,说用爬虫爬取某招聘网站的数据,然后说某某岗位现在平均月薪是多少。于是我做了个测试,我很少进行一个公司多个岗位投递的。我们可以看到这么个数据:87/309,也就是说,只有28%的公司岗位是真实在招聘员工,剩下72%的岗位都是不招人的。什么意思呢?你每投递三个岗位,就有两个岗位是不招人的,也就是说连你是男是女都不知道,你的简历就被扔进垃圾桶了。----------------------------------------------------------.原创 2020-08-18 11:08:15 · 785 阅读 · 0 评论 -
Java spark中的各种范型接口Function的区别(持续更新中)
Class Function Type Function<T, R> T => R DoubleFunction<T> T => Double PairFunction<T, K, V> T => Tuple2<K, V> FlatMapFunction<T, R> T => Iterable<R> DoubleFlatMapFunction<T>原创 2020-08-04 15:24:04 · 775 阅读 · 0 评论 -
Python和Scala和Java的语法对照表(持续更新中)
List Python Scala 空List a = [] val a = List() //List[Nothing] Int a = [1,2,3,4,5] val a = List(1,2,3,4,5) String a = ["a", "b"] val a: List[String] = List("Hello", "World") 不同类型 a = [1,"Hello"] val a = List(1,...原创 2020-07-30 16:47:14 · 928 阅读 · 2 评论 -
scala一些奇怪的操作符的效果(持续更新中)
scala符号或者变量 操作后效果 List (1,2,3) 4::list (4,1,2,3) list.:: (5) (5, 1, 2, 3) list :+ 6 (1, 2, 3, 6) list2 "A"+:"B"+:Nil list ::: list2 (1, 2, 3, A, B) list ++ list2 (1, 2, 3, A, B) 举例:object listTest { ...原创 2020-05-09 17:13:03 · 314 阅读 · 0 评论 -
flink的dataset api常用import语句汇总(持续更新)
import java.util.Set;import java.util.HashSet;import org.apache.flink.util.Collector;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.tuple.Tuple1;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.api.jav.原创 2020-06-22 21:20:46 · 600 阅读 · 0 评论 -
一些没啥用的大数据组件以及理由(持续更新中)+2020的Gartner曲线
组件名称 没啥用的理由 phoenix 不支持最新版Hbase Ambari 不支持最新的周边组件 Zeppein 不支持最新版的Spark原创 2020-06-17 20:13:14 · 489 阅读 · 0 评论 -
spark中各种数量的确定和查询(持续更新中)
数量 决定/设置方式 查询方式 partition数量 spark.createDataFrame(data).rdd.getNumPartitions task数量 executor数量 并发度 job数量 每次spark-submit/spark-shell提交任务就是一个job - stage数量 根据DAG依赖图来确定(其实还是根据代码来确定的) - ...原创 2020-05-13 19:18:05 · 1367 阅读 · 0 评论 -
spark-submit提交参数说明以及与yarn-site.xml中参数的相互约束关系+spark运行架构图解(持续更新中)
先复习下yarn-site.xml中几个参数的含义[3]:配置文件 配置设置 默认值 计算值 yarn-site.xml yarn.nodemanager.resource.memory-mb 8192 MB = containers * RAM-per-container yarn-site.xml yarn.scheduler.minimu...原创 2020-05-01 21:08:23 · 1777 阅读 · 0 评论 -
大数据集群中数据互相导通流程汇总(持续更新中)
Hbase HDFS Mysql Hive Hbase - HDFS - Mysql - Hive -原创 2020-05-16 09:43:21 · 296 阅读 · 0 评论 -
大数据发行版本+组件中的竞品/等同地位关系(持续更新中)
一些大数据组件在一定程度上是可以互相取代的,这里进行一些整理。常见大数据组件 竞品 用途 HDFS FastDFS(已经淘汰) 分布式文件系统 MapReduce Spark 集群计算 Hive Cloudera Impala/Apache Kylin 静态分析(OLAP) Flink Streaming/Storm 实时计算 注:上面加粗字体表示在正常中更为常用或在开发上更加快速...原创 2020-05-22 20:41:12 · 751 阅读 · 0 评论 -
集群状态正常时需要的jps进程+是否需要部署到各个节点(持续更新中)
集群 jps进程 HDFS HistoryServer NameNode DataNode SecondaryNameNode Yarn NodeManager ResourceManager Spark Master Worker JobHistoryServer Hbase HQuorumPeer HMaster ...原创 2020-05-16 08:33:54 · 1288 阅读 · 0 评论 -
mysql优化积累(持续更新中)
场景 解决方案 参考连接 SQL的生命周期 从连接到释放连接 大表数据查询 主从复制 读写分离 垂直拆分 水平切分 超大分页 数据库层面 需求层面 延迟关联或者子查询优化 数据库设计和查询原则:尽量设定主键推荐使用自增ID,不要使用UUID字段定义为not null而不是null密码散列,盐,用户身份证号等...转载 2020-05-22 21:38:40 · 265 阅读 · 0 评论 -
spark和hadoop升级记录(持续更新中)
昨晚从spark-2.3.1-bin-hadoop2.7升级到spark-3.0.0-preview2-bin-hadoop3.2基本结论是:/etc/hosts不用修改~/.bashrc中路径改下(就是和spark相关的,spark-2.3.1-bin-hadoop2.7改成spark-3.0.0-preview2-bin-hadoop3.2)export SPARK_LOCAL...原创 2020-05-07 12:23:44 · 626 阅读 · 0 评论 -
Flask/Django/Tornado语法对比(持续更新中)
返回页面的方式https://blog.csdn.net/hu827250322/article/details/100175362原创 2020-04-11 11:58:51 · 389 阅读 · 0 评论 -
ETL的数据同步工具调研(持续更新中)
扯白了,数据同步工具就是"导数据 "的名称 社区响应 SQOOP 更新缓慢,对于hbase2.x以上版本使用时需要老版本的jar包 OTTA github的issue已经很少回应,repository本身很少更新 DataPipeline DataX 没有官方web UI talend informatica 商用 Datastage 商用 Oracle Goldengate kettle ...原创 2020-05-26 16:46:59 · 480 阅读 · 0 评论 -
Django购物网站使用说明
#------------------使用说明-----------------------------注册(可以随意注册,但是密码长度检测没有做,需要8位以上,否则登录会报错)登录忘记密码/密码重置我想上架新桌游(用户名:admin,密码:admin)发货(用户名:admin,密码:admin)只有发货后并且收货前客户才能在订单中查看物流(因为查看物流是花钱的,所以这么设...原创 2020-03-26 16:53:23 · 505 阅读 · 0 评论 -
在python的dataframe中进行类似于mysql的join操作(持续更新)
Mysql准备工作:T1T2T3操作 mysql mysql结果 inner join select * from T1 inner join T2 on T1.user_id = T2.user_id left outer join select * from T1 left outer join T2 on T1.use...转载 2019-09-10 13:08:22 · 1188 阅读 · 0 评论 -
不要再次进行阅读的计算机论文与理由(持续更新中)
这篇博客主要记载一些没有代码实现的计算机论文,并且确保在理论上也不值得读的论文的汇总。《Negative eigenvalues of the hessian in deep neural networks》-根据一作本人回复,连他自己都不能在家里复现,需要使用谷歌特定的脚本以及一堆设备才能复现。《Hessian free optimization methods for machine le...原创 2019-07-31 18:42:23 · 1116 阅读 · 0 评论 -
linux下运行的游戏(持续更新中)
0 A.D.Ubuntu Linux 18.10下面安装魔法门之英雄无敌3原创 2019-07-03 15:00:37 · 2909 阅读 · 0 评论 -
论文原文解读汇总(持续更新中)
以下是自己对一些论文原文的解读:机器学习:《XGBoost: A Scalable Tree Boosting System》《CatBoost:gradient boosting with categorical features support》-2018《LightGBM:A Highly Efficient Gradient Boosting Decision Trees》主流剪...原创 2019-01-06 21:21:47 · 1184 阅读 · 0 评论 -
大数据组件需要额外添加的依赖包汇总(持续更新中)
大数据组件 flink-1.10.1-bin-scala_2.11.tgz 自带 flink-dist_2.11-1.10.1.jar flink-table_2.11-1.10.1.jar log4j-1.2.17.jar flink-table-blink_2.11-1.10.1.jar slf4j-log4j12-1.7.15.jar 用户添加 ...原创 2020-06-13 10:46:59 · 986 阅读 · 0 评论 -
python2与python3代码互相转化时注意事项
print不同:python2可以没括号python3必须有括号浅拷贝copy用法不同python3的用法是a=b.copy()python2的用法是a=copy.copy(b)浮点计算不同python2中2/3=0(想要小数的话,需要把分子和分母用float进行转化)python3中2/3=0.66666...原创 2018-10-12 21:40:11 · 536 阅读 · 0 评论 -
Spark集群周边的Web UI设置与打开的端口汇总(持续更新中)
下面是变量名:变量 取值 所在文件 作用 spark.eventLog.enabled true spark-defaults.conf 开启日志记录 spark.eventLog.dir 我这里设置的是hdfs路径.(也可以是本地路径如file:///val/log/sparkEventLog) spark-defaults.conf...原创 2020-05-04 11:17:19 · 3132 阅读 · 0 评论 -
spark中各类key算子的用法汇总(持续更新中)
启动方式:spark-shell --master yarn具体代码:wordCountsWithReduce.collect()Transformation算子:算子操作前的变量 算子操作前的变量类型 算子 算子的作用 算子操作后,变量类型 变量打印结果 rdd1 org.apache.spark.rdd.ParallelCollectionRDD parallelize 数据读入RDD org.apache...原创 2020-05-09 18:21:26 · 739 阅读 · 0 评论 -
数据仓库在HDFS上存储数据的路径(持续更新中)
组件名称 WEB UI路径 HDFS 路径 Hive内表t1 http://desktop:9870/explorer.html#/user/hive/warehouse/t1 hdfs://Desktop:9000/user/hive/warehouse/t1 Hive外表t2 http://desktop:9870/explorer.html#/user/t2 hdfs://Desktop:9000/user/t2 Hbase http://d...原创 2020-05-29 22:53:35 · 902 阅读 · 0 评论 -
大数据组件的各种协议与作用(持续更新中)
协议 作用 spark:// spark的standalone模式 hdfs:// 分布式文件集群 hiveserver2 beeline连接的前提 thrift/thrift2 python连接hbase的前提原创 2020-05-31 13:03:56 · 276 阅读 · 0 评论 -
大数据Notebook调研信息汇总(持续更新中)
大数据组件 支持Spark 支持Flink 支持最新版大数据组件 Zeppelin ✓ ✓ X Jupyter ✓ X ✓ Databricks ✓ ✓ ✓原创 2020-06-09 10:26:30 · 326 阅读 · 0 评论