自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 机器学习深度学习基础夯实系列 - 开幕式

研究生入学一年,随着研究的深入,愈发觉得基础的重要。原来觉得了解那些常规的模型,会写代码,能照猫画虎就行了,就能把“需求”置于死地。他们代指“需求问题”现在愈发的感觉到老话说的好,基础不牢地动山摇,所以为了下一步能走的更加悠然新三步变成成:夯实基础,数学支撑,灵活应用。从今天开始,从今天晚上十点钟开始,我要重学基础,温故知新,尽量将内容和大家分享(也没啥人看)作为一个二手的科学家与君共勉...

2021-10-04 15:13:10 277 1

原创 python OSMNX路网处理 & FMM GPS轨迹点绑路

读研一年,初入交通领域,分享两个比较常用工具 :OSMNX &FMM路网处理使用OSMNX可以大幅减少代码工作量,FMM绑路效果我觉得很不错~1.OSMNX官方手册:OSMnx 1.1.1 — OSMnx 1.1.1 documentation安装:首页的安装教程十分简单,centos和ubuntu系统下都十分亲切,conda直接安装,记得换源!接口:在User reference中有十分详细的接口说明,按照教程安装con...

2021-10-04 14:43:12 3947 4

原创 docker 安装oracle database 11g dmp文件导入 csv导出

一、docker安装教程很多便不赘述二、docker导入dmp文件1. 拉取oracle镜像,此处选取registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g镜像docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g2.启动oracle镜像docker images 查看已有镜像 获取容器id启动oracle镜像docker run -d -p 15.

2021-06-25 16:48:53 673

原创 pytorch matmul 高维乘法 解读

二维情况下两个tensor matmul就是矩阵乘法,但是当高维的情况呢?构建(2,3,2)tensor 和 (2,2,2)tensor 进行相乘

2021-05-27 23:03:52 1208

原创 Pytorch masked_fill 函数理解应用

masked_fill_(mask,value)Fills elements ofselftensor withvaluewheremaskis True. The shape ofmaskmust bebroadcastablewith the shape of the underlying tensor.Parameters mask(BoolTensor) – the boolean mask value(float) – the value to ...

2021-05-27 22:38:38 2678 1

原创 python & dataframe 操作 小汇总 1

一、is和==的区别:is判断两个变量是否是引用同一个内存地址。 所以判断是否数据为Nonetype的时候可以直接使用判断 if XXX is None: print()==判断两个变量是否相等。如果不用 a = b 赋值,int 型时,在数值为-5~256(64位系统)时,两个变量引用的是同一个内存地址,其他的数值就不是同一个内存地址了。二、pandas填充数据 fillna1.填充Nonetypedf_train['keyword'].replace(to_repl...

2021-04-25 22:26:10 296 1

原创 dataframe 填充 Nonetype 以及nan数据

如果csv文件里面在对应列没有值的话,查看这个数据的类型会是Nonetype,填充方法:Nonetype:df_train['keyword'].replace(to_replace=[None],value='None',inplace=True)float型的空值会是nan:填充如下df_train.fillna(value=你要填充的值, inplace=True)...

2021-04-25 20:51:54 2397

原创 sqoop Communications link failure、Connection refused解决

这两天在准备sqoop,按照各种教程先后使用了sqoop2 sqoop、又重装了两次mysql,都一直报错,现已解决,记录一下。The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server. at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnec...

2021-04-23 09:45:50 1577 1

原创 安装flume并整合到kafka、sparkstreaming

一、安装后修改flume-env.sh 加入JAVA_HOME我的版本是flume-1.8.0二、以spooldir方式启动,写kafka_spool.confsource、channel、sink概念:Client:Client生产数据,运行在一个独立的线程。  Event: 一个数据单元,消息头和消息体组成。(Events可以是日志记录、 avro 对象等。)  Flow: Event从源点到达目的点的迁移的抽象。  Agent: 一个独立的Flume进程,包含组件Source

2021-04-20 14:00:23 150

原创 Hive整合Hbase 解决map=100% reduce=0%的问题

搭建过程致谢:https://www.cnblogs.com/yfb918/p/10882323.htmlhttps://blog.csdn.net/dajiangtai007/article/details/79696853我当时在从hive插入到hbase表的时候,一直卡在map=100% reduce=0%查询日志找到原因:2021-04-17 06:18:12,884 ERROR [main] org.apache.hadoop.hbase.client.AsyncPr.

2021-04-17 21:35:25 3746

原创 sparkstreaming+kafka+Hbase 实现实时数据写入Hbase

安装kafka、sparkstreaming、hbase参考我之前写的文章基于maven hadoop 2.7.5 hive 1.3.2 spark 2.4.7代码:POM.XML<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc

2021-04-16 16:42:59 631

原创 Hbase 入门笔记II :基本shell操作

Hbase的表可以看作是一种服务,需要客户端和他连接,所以有disable,enable 不可用和可用状态。致谢:http://c.biancheng.net/view/3587.html基础操作1. 查询服务器状态status2. 查询版本号versionDDL 操作:数据定义语言(Data Defination Language,DDL)操作主要用来定义、修改和查询表的数据库模式。1. 创建一个表create 'studen','info1' 最少有一个列族 例如i..

2021-04-16 13:49:08 713

原创 解决Hbase连接hdfs失败java.net.ConnectException: Connection refused

昨天hbase安装好之后一直连接不到hdfs上,十分费解。错误如下:2021-04-15 07:04:32,844 WARN [master:16000.activeMasterManager] ipc.Client: Failed to connect to server: master/192.168.110.129:9000: try once and fail.java.net.ConnectException: Connection refused at sun.nio.ch....

2021-04-16 10:55:51 3789

原创 HBASE搭建过程报错解决汇总

错误1:running matser, logging to /opt/hbase-1.6.0/bin/../logs/hbase-jamjar-matser-master.outError: Could not find or load main class matser原因&解决:hbase-env.sh 中需要export你的Java路径错误2:running master, logging to /opt/hbase-1.6.0/bin/../logs/hbase.

2021-04-15 16:49:53 6622 3

原创 HBase入门笔记 I

致谢:尚硅谷https://www.bilibili.com/video/BV1Y4411B7jy?from=search&seid=180541532113712925891.1Hbase定义HBase是一种分布式、可扩展(动态上下线)、支持海量数据的NoSQL(KEY-VALUE)数据库1.2数据模型逻辑上数据模型和关系型数据库类似,数据存在一张表中。底层物理逻辑是K-V键值对。与mysql区别:1.将列分成了列簇 (一行包含很多列簇)(宽表切分)2.行被切成了Region(

2021-04-14 22:17:52 2644 1

原创 sparkstreaming连接kafka接收消息

一、写sparkstreaming代码打印接收需要调用steam.value()import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribeimport org.apache.spark.streaming.kafka0.

2021-04-14 14:40:34 2273

原创 解决maven打包scala代码找不到主类问题、maven打包带依赖

折腾了一晚上加一上午,总算解决了。解决:1.21/04/13 20:55:27 INFO scheduler.EventLoggingListener: Logging events to hdfs://master:8020/directory/local-1618372526737Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDes

2021-04-14 12:40:05 2606 1

原创 解决SparkStreaming 集群模式接收不到nc数据

一、写sparkstreaming代码:import org.apache.spark.{SparkConf, SparkContext}import org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.{Seconds, StreamingContext}object test { def main(args: Array[String]): Unit = { Logger.getLogger("or

2021-04-13 17:04:46 559

原创 windows写spark代码并打包交到集群运行

一.下载spark,hadoop,java,scala,idea1.spark,本地调试代码需要运行你写的scala,其中引用的所有spark库都需要spark的jar包,使用集群机器上的spark文件夹里面的jars即可,将集群上的spark拷贝下来。2.hadoop,同spark,但是需要下载winutils.exe在hadoop的bin目录下,否则会报Could not locate executable null\bin\winutils.exe in the Hadoop binaries

2021-04-13 12:16:12 638

原创 Zookeeper 学习笔记 -解决zookeeper端口占用8080问题

致谢:https://www.bilibili.com/video/BV1PW411r7iP?from=search&seid=4125939798101478321一、Zookeeper是一个开源的分布式,为分布式提供协调应用的Apache项目观察者模式设计的分布式管理框架:负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦数据状态发生变化,Zookeeper负责通知注册了的接收者。ZK=文件系统+通知机制二、Zookeeper特点:1.zookeeper中一个

2021-04-12 17:06:02 1336

原创 House Prices top5% 关于代码的一些笔记

思路来源&致谢 :https://www.kaggle.com/jesucristo/1-house-prices-solution-top-1?scriptVersionId=12846740git 地址:https://github.com/jamjar102/kaggle_HousePricenew.py文件跑出来的submission score大概0.11 达到top5%具体思路可以看kaggle的这篇教程和我代码上的一些注释,以下大概写几个之前没有用过的技术点。记性不好,..

2021-04-12 11:25:04 281

原创 解决Hadoop livenode 0/1 livenode数量为0或1的情况

经过一些配置文件修改或者重新构建slave中hadoop工程后会导致一些livenode挂掉,导致livenode数量异常多半是因为hadoop多次经过format namenode而导致结点无法启动了,解决方案:0.先运行stop-all.sh脚本关掉hadoop1.删掉所有机器上hadoop文件夹中core-site.xml和和hdfs-site.xml中写到的在集群上的文件夹2.master节点上重新格式化 hadoop namenode -format...

2021-04-09 17:43:53 637

原创 大数据zookeeper连接hadoop

markmarkmarkmarkmarkmarkmark

2021-04-09 16:45:36 153

原创 大数据Kafka入门

Kafka是一个分布式基于发布/订阅模式的消息队列,Message Queue,用于大数据实时处理领域。Spark和Kafka是高度相关的。一、Kafka是采用消息队列的异步处理。消息队列优点:1.解耦,只需有确保接口约束,可以单独的扩展两边的处理过程2.可恢复性,系统的某一部分损坏不会影响整个系统3.缓冲,解决生产大于消费的的速度,(解决速度不一致问题)4.灵活性,峰值处理能力,可以动态的调整处理的硬件支持,减少浪费。二、消息队列的两种模式1.点对点模式消费者主动从生.

2021-04-09 14:51:04 664

原创 sklearn 使用笔记1-titanic

记性不好,怕忘,随用随写点东西给自己看一、Seaborn,pyplot详细使用参见git地址:https://github.com/jamjar102/kaggle_titanic其中: facet = sns.FacetGrid(train, hue="Survived", aspect=2) facet.map(sns.kdeplot, 'Age', shade=True) #年龄与存活率 facet.set(xlim=(0, train['Age'].max()))

2021-04-09 11:41:20 238

原创 Meta learning - metric-based approach 李宏毅机器学习笔记

Siamese Network孪生网络,通常不会放在meta learning里面但是李宏毅就要把这个网络放在meta learning里面讲所以为什么孪生网络可以看成meta learning呢?一、直观解释 Intuitive Explanation可以将train和test看成一组输入,就是一个简单的二分类问题。 原理:用CNN将人脸图片投影到同一个空间上,考量这个空间上两张图片的距离(similarity)计算similar...

2021-04-07 21:03:22 889

原创 Meta Learning Gradient Descent as LSTM 李宏毅机器学习笔记

以上结构类似于RNN(LSTM)结构,其中θ类似于隐向量,training data就是输入X以下具体说明。一、LSTM reviewCt-1和Ct改变会很小,所以保持了长期依赖,ht-1和ht变化大代表了短期依赖。zi输入门,zf遗忘门,zo输出门ct=z和zi做点乘+zf和ct-1点乘(选择选择ct-1还是遗忘)ht=zo和tanh(ct)yt=激活(W’ht)二、LSTM与Gradient descent的联系1.另ct-1换成θt-1...

2021-04-07 16:38:35 404

原创 Meta learning 元学习李宏毅机器学习

Meta learning= learn to learn机器学过很多任务后,机器变成更厉害的学习者,遇到新的任务的是可以学的更快更好。e.g机器学过语音、影响分类后,可以对文本分类做得更好。一、区别与联系1.transfer learning与meta learning的区别:transfer learning的目的是通过taskA去增强taskB,e.g. 用一个NN去解决了城市A的任务,现在用这个NN修改最后基层,解决城市B的任务,其效果要比单独对城市B用NN效果好。但...

2021-04-07 15:37:40 684

原创 Life-long learning 终身学习李宏毅课堂笔记

核心思想:模拟人类大脑,只需要用一个模型就可以学会很多个任务,从而可以解决所有学会的任务。但是目前大部分模型都是针对特定任务单独学习训练的。一、challenge:1.knowledge retention but not intransigence 1.如果顺序的把不同任务的数据集喂到同一个网络,会导致先之前的任务会有灾难性的遗忘。 2.如果把所有任务的数据集合到一起,统一学习。开销大,不值得。 3.* Elastic Weight Consolidation (EW...

2021-04-07 10:50:18 395

原创 Ubuntu搭建 Spark、Hive、Hadoop+yarn

Ubuntu搭建 Spark、Hive、Hadoop+yarn操作系统:Ubuntu 16.04.12虚拟机:VMware® Workstation 16 Pro 16.0.0JDK:1.8.0_282Hadoop:hadoop-2.7.5 https://archive.apache.org/dist/hadoop/common/Spark:spark-2.4.7-bin-hadoop2.7 http://spark.apache.org/downloads.html...

2021-03-26 22:34:24 1342

原创 pytorch教程 聊天机器人(详细注释&attention&rnn输入输出shape等知识点...

最近可能要用到seq2seq模型去解决一些轨迹预测的问题,拿pytorch教程的聊天机器人练了练手。原文中教程已经写的比较详尽了,在此对原文教程进行一些补充说明,可能更加方便向我这样的小白入门学习。本文是对教程的补充说明,并没有照搬所有教程中的代码,中文教程写的很不错啦,链接在下面。pytorch中文教程:http://www.pytorch123.com/FifthSection/Chatbot/我的git地址:https://github.com/jamjar102/pytorch.

2021-01-22 22:53:51 1892 7

原创 Hyperledger Composer 学习笔记 1 部署业务网络

新学期新气象,这学期开始了Hyperledger Composer的学习,主要是为了完成这学期的星火项目。回到实验室,考了学长的虚拟机,然后开始了我的无数次碰壁之旅。困扰我时间最长的两个问题:第一个比较智障,总是Ubutun Linux 总是连不上网。后来发现此类问题都是网络配置文件的配置信息出错,由于是直接拷贝别人的虚拟机,而且这个虚拟机还有自己配置的网络文件,/etc/networ...

2019-02-26 15:00:56 457 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除