宋老板的笔记-CSDN博客

原创机器学习深度学习基础夯实系列 - 开幕式

研究生入学一年，随着研究的深入，愈发觉得基础的重要。原来觉得了解那些常规的模型，会写代码，能照猫画虎就行了，就能把“需求”置于死地。他们代指“需求问题”现在愈发的感觉到老话说的好，基础不牢地动山摇，所以为了下一步能走的更加悠然新三步变成成：夯实基础，数学支撑，灵活应用。从今天开始，从今天晚上十点钟开始，我要重学基础，温故知新，尽量将内容和大家分享（也没啥人看）作为一个二手的科学家与君共勉...

2021-10-04 15:13:10 347 1

原创 python OSMNX路网处理 & FMM GPS轨迹点绑路

读研一年，初入交通领域，分享两个比较常用工具：OSMNX &FMM路网处理使用OSMNX可以大幅减少代码工作量,FMM绑路效果我觉得很不错~1.OSMNX官方手册：OSMnx 1.1.1 — OSMnx 1.1.1 documentation安装：首页的安装教程十分简单，centos和ubuntu系统下都十分亲切，conda直接安装，记得换源！接口：在User reference中有十分详细的接口说明，按照教程安装con...

2021-10-04 14:43:12 4225 4

原创 docker 安装oracle database 11g dmp文件导入 csv导出

一、docker安装教程很多便不赘述二、docker导入dmp文件1. 拉取oracle镜像，此处选取registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g镜像docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g2.启动oracle镜像docker images 查看已有镜像获取容器id启动oracle镜像docker run -d -p 15.

2021-06-25 16:48:53 794

原创 pytorch matmul 高维乘法解读

二维情况下两个tensor matmul就是矩阵乘法，但是当高维的情况呢？构建（2，3，2）tensor 和（2，2，2）tensor 进行相乘

2021-05-27 23:03:52 1369

原创 Pytorch masked_fill 函数理解应用

masked_fill_(mask,value)Fills elements ofselftensor withvaluewheremaskis True. The shape ofmaskmust bebroadcastablewith the shape of the underlying tensor.Parameters mask(BoolTensor) – the boolean mask value(float) – the value to ...

2021-05-27 22:38:38 3102 1

原创 python & dataframe 操作小汇总 1

一、is和==的区别：is判断两个变量是否是引用同一个内存地址。所以判断是否数据为Nonetype的时候可以直接使用判断 if XXX is None： print()==判断两个变量是否相等。如果不用 a = b 赋值，int 型时，在数值为-5~256（64位系统）时，两个变量引用的是同一个内存地址，其他的数值就不是同一个内存地址了。二、pandas填充数据 fillna1.填充Nonetypedf_train['keyword'].replace(to_repl...

2021-04-25 22:26:10 374 1

原创 dataframe 填充 Nonetype 以及nan数据

如果csv文件里面在对应列没有值的话，查看这个数据的类型会是Nonetype，填充方法：Nonetype：df_train['keyword'].replace(to_replace=[None],value='None',inplace=True)float型的空值会是nan：填充如下df_train.fillna(value=你要填充的值, inplace=True)...

2021-04-25 20:51:54 2589

原创 sqoop Communications link failure、Connection refused解决

这两天在准备sqoop，按照各种教程先后使用了sqoop2 sqoop、又重装了两次mysql，都一直报错，现已解决，记录一下。The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server. at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnec...

2021-04-23 09:45:50 1931 1

原创安装flume并整合到kafka、sparkstreaming

一、安装后修改flume-env.sh 加入JAVA_HOME我的版本是flume-1.8.0二、以spooldir方式启动，写kafka_spool.confsource、channel、sink概念：Client：Client生产数据，运行在一个独立的线程。　　Event：一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）　　Flow： Event从源点到达目的点的迁移的抽象。　　Agent：一个独立的Flume进程，包含组件Source

2021-04-20 14:00:23 200

原创 Hive整合Hbase 解决map=100% reduce=0%的问题

搭建过程致谢：https://www.cnblogs.com/yfb918/p/10882323.htmlhttps://blog.csdn.net/dajiangtai007/article/details/79696853我当时在从hive插入到hbase表的时候，一直卡在map=100% reduce=0%查询日志找到原因：2021-04-17 06:18:12,884 ERROR [main] org.apache.hadoop.hbase.client.AsyncPr.

2021-04-17 21:35:25 3964

原创 sparkstreaming+kafka+Hbase 实现实时数据写入Hbase

安装kafka、sparkstreaming、hbase参考我之前写的文章基于maven hadoop 2.7.5 hive 1.3.2 spark 2.4.7代码：POM.XML<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc

2021-04-16 16:42:59 736

原创 Hbase 入门笔记II ：基本shell操作

Hbase的表可以看作是一种服务，需要客户端和他连接，所以有disable，enable 不可用和可用状态。致谢：http://c.biancheng.net/view/3587.html基础操作1. 查询服务器状态status2. 查询版本号versionDDL 操作：数据定义语言（Data Defination Language，DDL）操作主要用来定义、修改和查询表的数据库模式。1. 创建一个表create 'studen','info1' 最少有一个列族例如i..

2021-04-16 13:49:08 843

原创解决Hbase连接hdfs失败java.net.ConnectException: Connection refused

昨天hbase安装好之后一直连接不到hdfs上，十分费解。错误如下：2021-04-15 07:04:32,844 WARN [master:16000.activeMasterManager] ipc.Client: Failed to connect to server: master/192.168.110.129:9000: try once and fail.java.net.ConnectException: Connection refused at sun.nio.ch....

2021-04-16 10:55:51 4029

原创 HBASE搭建过程报错解决汇总

错误1：running matser, logging to /opt/hbase-1.6.0/bin/../logs/hbase-jamjar-matser-master.outError: Could not find or load main class matser原因&解决：hbase-env.sh 中需要export你的Java路径错误2：running master, logging to /opt/hbase-1.6.0/bin/../logs/hbase.

2021-04-15 16:49:53 8551 3

原创 HBase入门笔记 I

致谢：尚硅谷https://www.bilibili.com/video/BV1Y4411B7jy?from=search&seid=180541532113712925891.1Hbase定义HBase是一种分布式、可扩展（动态上下线）、支持海量数据的NoSQL（KEY-VALUE）数据库1.2数据模型逻辑上数据模型和关系型数据库类似，数据存在一张表中。底层物理逻辑是K-V键值对。与mysql区别：1.将列分成了列簇（一行包含很多列簇）（宽表切分）2.行被切成了Region（

2021-04-14 22:17:52 2750 1

原创 sparkstreaming连接kafka接收消息

一、写sparkstreaming代码打印接收需要调用steam.value()import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribeimport org.apache.spark.streaming.kafka0.

2021-04-14 14:40:34 2339

原创解决maven打包scala代码找不到主类问题、maven打包带依赖

折腾了一晚上加一上午，总算解决了。解决：1.21/04/13 20:55:27 INFO scheduler.EventLoggingListener: Logging events to hdfs://master:8020/directory/local-1618372526737Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDes

2021-04-14 12:40:05 2870 1

原创解决SparkStreaming 集群模式接收不到nc数据

一、写sparkstreaming代码：import org.apache.spark.{SparkConf, SparkContext}import org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.{Seconds, StreamingContext}object test { def main(args: Array[String]): Unit = { Logger.getLogger("or

2021-04-13 17:04:46 703

原创 windows写spark代码并打包交到集群运行

一.下载spark,hadoop,java,scala,idea1.spark,本地调试代码需要运行你写的scala，其中引用的所有spark库都需要spark的jar包，使用集群机器上的spark文件夹里面的jars即可，将集群上的spark拷贝下来。2.hadoop，同spark，但是需要下载winutils.exe在hadoop的bin目录下，否则会报Could not locate executable null\bin\winutils.exe in the Hadoop binaries

2021-04-13 12:16:12 734

原创 Zookeeper 学习笔记 -解决zookeeper端口占用8080问题

致谢：https://www.bilibili.com/video/BV1PW411r7iP?from=search&seid=4125939798101478321一、Zookeeper是一个开源的分布式，为分布式提供协调应用的Apache项目观察者模式设计的分布式管理框架：负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦数据状态发生变化，Zookeeper负责通知注册了的接收者。ZK=文件系统+通知机制二、Zookeeper特点：1.zookeeper中一个

2021-04-12 17:06:02 1573

原创 House Prices top5% 关于代码的一些笔记

思路来源&致谢：https://www.kaggle.com/jesucristo/1-house-prices-solution-top-1?scriptVersionId=12846740git 地址：https://github.com/jamjar102/kaggle_HousePricenew.py文件跑出来的submission score大概0.11 达到top5%具体思路可以看kaggle的这篇教程和我代码上的一些注释，以下大概写几个之前没有用过的技术点。记性不好，..

2021-04-12 11:25:04 384

原创解决Hadoop livenode 0/1 livenode数量为0或1的情况

经过一些配置文件修改或者重新构建slave中hadoop工程后会导致一些livenode挂掉，导致livenode数量异常多半是因为hadoop多次经过format namenode而导致结点无法启动了，解决方案：0.先运行stop-all.sh脚本关掉hadoop1.删掉所有机器上hadoop文件夹中core-site.xml和和hdfs-site.xml中写到的在集群上的文件夹2.master节点上重新格式化 hadoop namenode -format...

2021-04-09 17:43:53 778

原创大数据zookeeper连接hadoop

markmarkmarkmarkmarkmarkmark

2021-04-09 16:45:36 196

原创大数据Kafka入门

Kafka是一个分布式基于发布/订阅模式的消息队列，Message Queue，用于大数据实时处理领域。Spark和Kafka是高度相关的。一、Kafka是采用消息队列的异步处理。消息队列优点：1.解耦，只需有确保接口约束，可以单独的扩展两边的处理过程2.可恢复性，系统的某一部分损坏不会影响整个系统3.缓冲，解决生产大于消费的的速度，（解决速度不一致问题）4.灵活性，峰值处理能力，可以动态的调整处理的硬件支持，减少浪费。二、消息队列的两种模式1.点对点模式消费者主动从生.

2021-04-09 14:51:04 775

原创 sklearn 使用笔记1-titanic

记性不好，怕忘，随用随写点东西给自己看一、Seaborn，pyplot详细使用参见git地址：https://github.com/jamjar102/kaggle_titanic其中： facet = sns.FacetGrid(train, hue="Survived", aspect=2) facet.map(sns.kdeplot, 'Age', shade=True) #年龄与存活率 facet.set(xlim=(0, train['Age'].max()))

2021-04-09 11:41:20 291

原创 Meta learning - metric-based approach 李宏毅机器学习笔记

Siamese Network孪生网络，通常不会放在meta learning里面但是李宏毅就要把这个网络放在meta learning里面讲所以为什么孪生网络可以看成meta learning呢？一、直观解释 Intuitive Explanation可以将train和test看成一组输入，就是一个简单的二分类问题。原理：用CNN将人脸图片投影到同一个空间上，考量这个空间上两张图片的距离（similarity）计算similar...

2021-04-07 21:03:22 1058

原创 Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记

以上结构类似于RNN(LSTM)结构，其中θ类似于隐向量，training data就是输入X以下具体说明。一、LSTM reviewCt-1和Ct改变会很小，所以保持了长期依赖，ht-1和ht变化大代表了短期依赖。zi输入门，zf遗忘门，zo输出门ct=z和zi做点乘+zf和ct-1点乘（选择选择ct-1还是遗忘）ht=zo和tanh(ct)yt=激活（W’ht）二、LSTM与Gradient descent的联系1.另ct-1换成θt-1...

2021-04-07 16:38:35 507

原创 Meta learning 元学习李宏毅机器学习

Meta learning= learn to learn机器学过很多任务后，机器变成更厉害的学习者，遇到新的任务的是可以学的更快更好。e.g机器学过语音、影响分类后，可以对文本分类做得更好。一、区别与联系1.transfer learning与meta learning的区别：transfer learning的目的是通过taskA去增强taskB，e.g. 用一个NN去解决了城市A的任务，现在用这个NN修改最后基层，解决城市B的任务，其效果要比单独对城市B用NN效果好。但...

2021-04-07 15:37:40 794

原创 Life-long learning 终身学习李宏毅课堂笔记

核心思想:模拟人类大脑，只需要用一个模型就可以学会很多个任务，从而可以解决所有学会的任务。但是目前大部分模型都是针对特定任务单独学习训练的。一、challenge：1.knowledge retention but not intransigence 1.如果顺序的把不同任务的数据集喂到同一个网络，会导致先之前的任务会有灾难性的遗忘。 2.如果把所有任务的数据集合到一起，统一学习。开销大，不值得。 3.* Elastic Weight Consolidation （EW...

2021-04-07 10:50:18 483

原创 Ubuntu搭建 Spark、Hive、Hadoop+yarn

Ubuntu搭建 Spark、Hive、Hadoop+yarn操作系统：Ubuntu 16.04.12虚拟机：VMware® Workstation 16 Pro 16.0.0JDK：1.8.0_282Hadoop：hadoop-2.7.5 https://archive.apache.org/dist/hadoop/common/Spark：spark-2.4.7-bin-hadoop2.7 http://spark.apache.org/downloads.html...

2021-03-26 22:34:24 1528

原创 pytorch教程聊天机器人（详细注释&attention&rnn输入输出shape等知识点...

最近可能要用到seq2seq模型去解决一些轨迹预测的问题，拿pytorch教程的聊天机器人练了练手。原文中教程已经写的比较详尽了，在此对原文教程进行一些补充说明，可能更加方便向我这样的小白入门学习。本文是对教程的补充说明，并没有照搬所有教程中的代码，中文教程写的很不错啦，链接在下面。pytorch中文教程：http://www.pytorch123.com/FifthSection/Chatbot/我的git地址：https://github.com/jamjar102/pytorch.

2021-01-22 22:53:51 2155 7

原创 Hyperledger Composer 学习笔记 1 部署业务网络

新学期新气象，这学期开始了Hyperledger Composer的学习，主要是为了完成这学期的星火项目。回到实验室，考了学长的虚拟机，然后开始了我的无数次碰壁之旅。困扰我时间最长的两个问题：第一个比较智障，总是Ubutun Linux 总是连不上网。后来发现此类问题都是网络配置文件的配置信息出错，由于是直接拷贝别人的虚拟机，而且这个虚拟机还有自己配置的网络文件，/etc/networ...

2019-02-26 15:00:56 529 1

weixin_41684423的博客