萤火虫之暮-CSDN博客

原创哈夫曼编码的非树节点形式实现

哈夫曼编码的非树节点形式实现楔子思考过程于是想自己写一个headq构建二叉树实在太久了，完全不让看文档，不敢不相信在有限的时间里可以调试成功，于是就想了使用非树的实现方式，就是把手动画的二叉树，从树叶往上补充哈夫曼编码总结楔子今日心血来潮参加了某厂家的机试，牛客网上机试，一看只有一题且时间90分钟200分，允许使用本地IDE，就知道肯定几分钟出不来，看题目可喜的是秒懂哈夫曼编码，可悲的是一年半...

2020-04-18 20:50:34 489

原创从GB到GBDT到XGBoost

Boostingboosting一句话理解：三个臭皮匠，顶个诸葛亮。在计算机学习理论里，强可学习和弱可学习是等价的。弱可学习模型转化为强可学习模型方法：前向分布加法模型。最简单前向分布加法模型yk+1 = yk + ( y-yk )( y-yk )即为残差，每一个新的弱分类器学习的目标都是残差这么一个简单的模型，能否得到我们想要的结果？理论上( y-yk )只有方向是准确的，具体是...

2020-02-19 09:13:28 542

原创 pandas读取大文件csv容易出现的错误

文章目录1. 不是utf-8格式，先读取一遍为utf-8，忽略掉错误:2. 出现null bytes错误，使用engine='c':3. 读取成功之后，保存为utf-8格式：1. 不是utf-8格式，先读取一遍为utf-8，忽略掉错误:filename = open('E://source_data/insured_utf-8.csv', encoding='utf-8',errors='ig...

2019-08-05 17:54:36 1632

原创 50-100G大文件的处理办法

文章目录1. 使用分布式框架处理，如上次介绍的spark2. 使用pandas chunk, 不比单机版的spark慢1. 使用分布式框架处理，如上次介绍的spark这种情况下集群才有优势，local单机版只能使用8G内存，rdd的优势也没发挥出来，好在是多patition和多任务。2. 使用pandas chunk, 不比单机版的spark慢import pandas as pddf_...

2019-08-02 11:34:42 1981

原创 spark搭建和使用,处理massive文件

文章目录1. 本地安装spark1.1 安装Anaconda1.2 安装JDK 1.81.3 安装spark1.3.1 安装spark for hadoop版本1.3.2 添加环境变量1.4 安装hadoop1.4.1 下载hadoop1.4.2 配置环境变量1.4.3 添加winutils.exe补丁1.5 安装pycharm1.6 使用1.6.1 创建sparkContext，注意pychar...

2019-08-02 10:26:36 452

原创 Mongodb实现多表join

文章目录Mongodb实现多表join1、通过遍历其他表，插入到当前表2、优化方式2.1、mongodb的lookup, 也就是聚合功能2.2、mapreduce 分布式join多表Mongodb实现多表join千万数量级的table, 如何实现join?1、通过遍历其他表，插入到当前表from pymongo import MongoClientclient = MongoClien...

2019-07-26 17:55:01 3663

原创《Neo4j全栈开发》_陈韶健

链接：https://pan.baidu.com/s/1HXRKjkPVjwmch7H2VSAg-A提取码：sdtm

2019-07-16 15:37:05 952

原创 D3js（六）：支持css的tooltips

文章目录实现如下效果，不是简单的文本，而是有样式的文本1、配置一个tooltips的div块：2、配置tooltips div块的css：3、配置节点上的事件处理：实现如下效果，不是简单的文本，而是有样式的文本1、配置一个tooltips的div块： var tooltip = d3.select("#graph").append("div") ...

2019-07-11 15:49:17 586

原创 SpringMQ的使用

文章目录SpringMQ的使用1、windows安装2、添加依赖：3、增加rabbit的配置：4、最简单的测试：publisher--->MQ-->consumer4.1、建立连接配置：4.2、发送端：建立连接，获取通道，创建队列，准备消息，发送消息到队列：4.3 、接收端：建立连接，获取通道，声明队列，申请队列的一个消费者（内含监听消息的方法），在通道线路上接收消息。4.4 消息接收...

2019-07-01 10:44:08 1353

原创 Activiti的使用技巧

文章目录Activiti的使用技巧1、环境的搭建：activiti-spring 7.0.0+连接池+mysql1.1 依赖如下：1.2 连接池和数据库配置：1.3 activiti的配置，通过config文件注入的方式：2、部署2.1 自动部署2.2 手动部署2.3 表单介绍3、创建流程表4、开始流程5、处理任务5.1 获取任务5.2 处理任务6、监听器设置:6.1 class方式：填写的是cl...

2019-07-01 10:41:13 913

原创 Docker User Guide

文章目录Docker User Guide:1. 简单启用docker2. 交互式启用docker3. 容器常用命令4. 以后台进程模式运行5. docker的命令格式：docker + flags + command + arguments6. 一般程序运行的简单例子7. 网络端口快捷方式8.查看WEB应用程序日志9.查看WEB应用程序容器的进程10.检查WEB应用程序11. 停止WEB应用容器...

2019-07-01 10:24:52 476

原创 D3js（五）：tooltips

文章目录何为tooltips?实现小贴士的2种方法：增加title标签，text就是title的内容，默认mouseover，mouseout处理定义tooltips，定义处理mouseover，mouseout完整示例何为tooltips?tips就是小贴士，tooltips就是小贴士工具实现小贴士的2种方法：增加title标签，text就是title的内容，默认mouseover，mo...

2019-06-29 21:20:10 2121

原创 D3js（四）：箭头arrow

文章目录D3js方式html+d3方式D3js方式<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title> <script src="http://d3js.org/d3.v3.min...

2019-06-28 16:25:04 2038

原创 D3js（三）：force实例

文章目录Data-Driven Documents理解selectionsselections操作直接上码：导入库，这里使用d3.v3,d3.v5可能有差异：建立画布，并把画布svg添加到html的body或者div里建立力矩图读取json数据把数据放进force里，force就可以直接使用自己的数据了依次把边添加到svg依次把节点添加到svg定义事件 mouseover， mouseout定义事...

2019-06-28 15:47:27 3663

原创 D3js（二）: d3js基础

文章目录Creating SVG Elements Based on DataUsing the SVG Coordinate Space（坐标系）json数组简化SVG Basic Shapes and D3.jsSVG Paths and D3.jsSVG Group Element and D3.jsSVG Text Element来源：https://www.dashingd3js.com...

2019-06-28 14:33:14 328

原创 D3js（一）: d3js和DOM

文章目录SVGAdding a DOM ElementAdding an SVG ElementBinding Data to DOM ElementsUsing Data Bound to DOM ElementsSVG<svg width="50" height="50"> <rect x="0" y="0" width="50" height="50" fill="...

2019-06-28 11:41:06 1438

原创 deepin安装node,npm

文章目录评价deepinapt-get安装版本旧的不行推荐nvm安装评价deepin首先更新是落后于ubuntu的，所以导致可能很多最基本的库是旧的，甚至于内核，导致很多软件安装比较困难。apt-get安装版本旧的不行推荐nvm安装root@qbt:/home/qbt/Downloads# wget -qO- https://raw.githubusercontent.com/creat...

2019-06-22 11:10:24 4653

原创 neo4j-admin导入海量数据

文章目录1. ubuntu安装neo4j, 非docker方式2. 准备数据3. neo4j-admin的使用1. ubuntu安装neo4j, 非docker方式之所以使用非docker方式，是我们需要使用neo4j-admin方式导入csv文件，需要在关系neo4j的情况下操作，docker下操作不方便，可能我不会。java -versionwget -O - https://debi...

2019-05-05 18:00:00 910

原创 Ubuntu 16.04 LTS　在anaconda环境下安装pytorch和tensorflow gpu，cuda10.0

文章目录准备更新笔记本的显卡驱动到较新的，最好是倒数第二新的版本安装cuda和cudnn:安装conda:安装tensorflow-gpu:安装pytorch:安装jupyter notebook:安装spyder:base 安装spyder，切换使用虚拟环境的kernel:每个虚拟环境均安装一个安装spyder:准备最新的Anaconda:https://mirrors.tuna.tsin...

2019-05-05 17:45:12 2455

原创 Win10 ancona傻瓜安装tensorflow-gpu，ancona傻瓜安装pytorch-gpu

楔子之前是在ubuntu16.04LTS上安装的是python2.7非anconda方式的tensorflow-gpu。1、学习使用一段时间后python2.7有点坑，网上的好多代码不能直接运行，比如：无法使用**表示keywords dic；2、而且在ubuntu使用spyder始终无法实现汉字的输入，对于学习阶段注释很重要，很不方便；3、后来偶然使用wintogo制作了一个win10的...

2019-04-22 23:17:22 1324

原创语音特征提取: MFCC的理解

文章目录1. 一般wav提取特征的方式：2. 什么是MFCC：3. 什么求倒谱：４. 什么是频谱的包络：５.如何获取频谱的包络：1. 一般wav提取特征的方式：2. 什么是MFCC：在mel-spectrum上取对数，再做傅里叶变换得到的特征，就是MFCCs。这个过程可以概括为对mel-spectrum求倒谱。3. 什么求倒谱：求倒谱就是对频谱取对数，再做傅里叶变换，又回去了。实...

2019-04-12 11:43:18 2291

原创 spring和mybatis整合：使用xml方式

文章目录spring和mybatis整合：使用xml方式1. 创建数据库2. 创建工程，pom.xml文件如下：3. 依赖下载地址如下：4. 配置mybatis的全局配置,在resources目录中加入mybatis-configuration.xml文件5. 定义表所对应的实体类,一般在bean目录下，或者pojo目录下6. 定义操作 t_user 表的sql映射文件UserMapper.xml...

2019-03-17 21:25:26 1142

原创 springboot 和 mybatis整合:参数查询和动态sql

springboot 和 mybatis整合：mapper定义的是数据库的操作方法:@Mapperpublic interface UserMapper {}单参数的处理： @Select("select * from t_user") @Results({ @Result(property = "userId", column = "USER_I...

2019-03-17 12:44:04 2975

原创 spingboot和mybatis，纯注解方式

文章目录spingboot和mybatis整合纯注解方式，不使用xml1. 创建数据库2. 建立工程，spring initizer: web + jbdc + mysql + mybatis,pom.xml如下：3. 针对表t_user创建一个类，针对一个表数据，也可以叫做结构体，数据类型，一般的实体（也就是数据类型）放在pojo下面：4. 为这个表创建方法，这个方法还必须和mysql map起...

2019-03-17 11:47:19 308

原创注解说明，自动配置

文章目录@SpringBootConfiguration@Configuration@EnableAutoConfiguration@ComponentScan总结@SpringBootConfiguration@Configuration这个注解的作用就是声明当前类是一个配置类，然后Spring会自动扫描到添加了@Configuration的类，并且读取其中的配置信息。@Enable...

2019-03-15 14:34:16 517

原创参数注入：最简方法，直接注入

文章目录把参数写进默认文件里application.properties直接注入，会直接把默认文件里prefix打头的文件加载进去，这样有个缺点就是都是完全载入。把参数写进默认文件里application.properties直接注入，会直接把默认文件里prefix打头的文件加载进去，这样有个缺点就是都是完全载入。...

2019-03-15 13:31:42 5401

原创参数注入：使用java配置参数的方法，springboot的方法

文章目录把需要需要注入的参数，写到默认文件application.properties：为需要注入的数据专门写一个类：定义一个使用该数据的方法，实际上应该可以和上面的那个类合并，只不过一般数据封装和方法的封装使用不同的类：定义一个使用参数的示例，设置断点查看。把需要需要注入的参数，写到默认文件application.properties：为需要注入的数据专门写一个类：可以借助lombok方...

2019-03-15 11:48:22 2434

原创参数注入：不使用xml，使用java配置参数的方法，以前的spring的方法

文章目录在POM文件里添加依赖在resource文件夹里添加.properties在config文件夹里建立一个类处理该数据，其他地方就可以直接使用这个累了在某个controller里面调用这个类就行了：设置断点，触发使用这个类，查看数据是否加载在POM文件里添加依赖&amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;com.alibaba&amp;lt;/groupI

2019-03-15 10:29:23 479

原创 idea破解，Maven配置web步骤

文章目录idea破解下载补丁修改文件路径，修改两个文件激活：help-register-activatevaven搭建最简单webfile-&gt;new-&gt;project-&gt;maven-&gt;mave_archetype_webapp选择Maven, 他就是管理jar的，可以看成appstore创建完毕，maven会下载对应的jar,选择自动加载：下载，加载可能会持续一段时间，看网...

2019-03-15 09:09:26 506

原创深度学习实战：基于bilstm或者dialated convolutions做NER

文章目录Before You Start:什么是dialated convolutions？什么是NER?为什么文本处理可以使用CNN?整体框架input dataembedding layerdialated convolution layer or BilstmBilstmdilated convolution layerprojection layerdilated convolution ...

2019-03-11 17:09:57 1754

原创 window 10下 Spark 安装简单使用

文章目录安装虚拟机管理软件vagrant:安装VirtualBox, vagrant默认使用VirtualBox:使用windows的powershell:进入centos, 安装jdk:安装spark:运行spark:测试spark:安装虚拟机管理软件vagrant:https://www.vagrantup.com/downloads.html安装VirtualBox, vagrant...

2019-03-03 17:52:24 896 1

原创深度学习总结：cycleGAN原理，实现图片风格切换，可以和之前的伪DL方式对比一下，pytoch实现

文章目录cycleGAN原理一般的unsupervised conditional generation的处理办法cycleGAN处理unsupervised conditional generation的办法：比较正常的思路：cycleGAN的思路：cycleGAN实现：Discriminator的结构：Discriminator的Loss：Generator的结构：Generator的结构图：...

2019-02-22 12:41:16 2233

原创深度学总结：skip-gram pytorch实现

文章目录skip-gram pytorch 朴素实现网络结构训练过程:使用nn.NLLLoss()batch的准备，为unsupervised，准备数据获取（center,contex)的pair：采样时的优化：降低高频词的概率skip-gram 进阶的方法skip-gram pytorch 朴素实现网络结构class SkipGram(nn.Module): def __init...

2019-02-21 11:12:02 6050 4

原创深度学总结：RNN训练需要注意地方：pytorch每一个batch训练之前需要把hidden = hidden.data，否者反向传播的梯度会遍历以前的timestep

pytorch每一个batch训练之前需要把hidden = hidden.data，否者反向传播的梯度会遍历以前的timesteptensorflow也有把new_state更新，但是没有明显detach的操作，预计是tensorflow自己机制默认backpropagation一个timestep的梯度： for e in range(epochs): # Train...

2019-02-21 09:54:19 2344 2

原创深度学总结：Image Style Transfer pytorch方式实现，这个是非基于autoencoder和domain adversrial方式

文章目录论文链接：主要思路：pytorch实现：计算content的Loss:计算style 的Loss:计算total的Loss:训练过程：论文链接：https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf主要思路：1、想...

2019-02-20 16:26:22 1044

原创深度学总结：CNN Decoder, Upsampling的处理

CNN Decoder, 需要做Upsampling：金字塔结构收缩的dimensions要膨胀回来，处理方法就是Upsampling，直接复制（容易产生棋盘条纹），或者做内插interpolation，然后再做convolution：# define the NN architectureclass ConvAutoencoder(nn.Module): def __init__(...

2019-02-20 12:46:10 2149

原创深度学总结：weight_initialization

weight_initializationOccam’s razor：简单一刀切设置0或者1General rule for setting weightsThe general rule for setting the weights in a neural network is to set them to be close to zero without being too small...

2019-02-20 11:59:43 286

原创 tensorflow学习：分布式tensorflow使用,代码实现inGraph方式

文章目录什么叫distributed tensorflow training,它到底干什么?Clustermaster和workersclient最简单的模型Client---Master(worker)代码实现:Master(worker)：即当老板又当员工，属于个体户，local就不用接受任务了，来什么任务就执行什么任务Client：build graph,把执行图的任务发给Master：bu...

2019-02-18 16:10:29 712

原创深度学习总结：tensorflow和pytorch关于RNN的对比,tf.nn.dynamic_rnn,nn.LSTM

tensorflow和pytorch关于RNN的对比：可以明显看出pytorch封装更高，更容易理解，动态图的优势。## tensorflow# RNN# num_units=64代表h_t,c_t的维度rnn_cell = tf.contrib.rnn.BasicLSTMCell(num_units=64)# 这个累加的lstm_multi ，相当于pytorch里面的num_lay...

2019-02-17 20:11:42 2478

原创深度学习总结：Tensorboard可视化里面的events, graph, histogram

Tensorboard可视化里面的evens, graph, histogramgraph：显示整个静态图tf.variable_scope就是用于放graph，tf.name_scope用的少了，因为w,b已经被封装了。with tf.variable_scope('Inputs'): tf_x = tf.placeholder(tf.float32, x.shape, name=...

2019-02-17 19:24:13 933

mnist_10k_sprite.png

空空如也