- 博客(26)
- 资源 (14)
- 收藏
- 关注
原创 Word Embedding 和Skip-Gram模型 的实践
什么是Word Embedding? word Embedding其实就是一个对词语进行向量化的高级方法。该方法对词语进行向量化后结果能够倾向于同类词语之间向量的距离会更小。例如在一堆预料中,I like apple和I like watermelon.经常出现,那么 apple 和watemelon向量化后两个向量的距离结果应该比apple和China两个向量之间距离小。
2017-10-30 18:18:52 1332
原创 Python lambda 表达式
python中lamba表达式其实就是简单匿名函数的一种简写方式。 lambda的基本用法是:lambda 参数列表:待返回的表达式它等价于:def ___unkonow__(参数列表): return 待返回的表达式例如:def add(a,b): return a+bprint(add(a,b))写做lambda表达式就是:add=lambda a,b:a+bprint(
2017-10-30 13:53:12 572
原创 C/C++ return 如何实现的?return 的内部机制
本篇博客,我们来看看,在C/C++里面函数的return 关键字究竟做了什么工作,我们从return 基本的数据类型 像int/char/void */,到struct 再到带构造函数的类,一步步分析。return int/char,void* 以及他们的引用···#include <stdio.h>#include <stdlib.h>int bfunc(){ int rst = 0
2017-10-29 11:40:31 8694 4
原创 脑电波实时数据收集——RDA—数据包定义
brainproduct recorder 远程采集脑电波实时数据 文章描述了通过RDA模块进行EGG实时数据采集的基本方法以及RDA模块的网络协议所使用的数据报文格式和含义,本博文将RDA数据包所涉及的格式定义成相应的结构体。#pragma pack(1)#ifndef ULONGtypedef unsigned long ULONG;#endif//所有数据都是小段序struct RDA
2017-10-28 19:49:59 3720 8
原创 STL 源码分析之string(三)基础篇—insert,
STL源码下载:https://www.sgi.com/tech/stl/download.html vs工程代码:http://download.csdn.net/download/jmh1996/10032316其中string类需要在3.1以后的版本才有定义。 如果对basic_string和_String_base结构不熟悉的可以随时看上一篇博客: STL源码分析之string(一)
2017-10-28 10:40:18 691
转载 Python更快的解析JSON大文件
提出问题 今天用python的simplejson库解析一个 >200MB 的JSON文件,发现一次decode/encode都得要 >10s,这个在我开来,实在太慢了,有没有更快的库了?先给出我的简单测试结果 json大小:245MB 测试方法:read文件内容,然后一次decode, 一次encode 解释器 simplejson json ujson pypy 40
2017-10-27 01:03:43 9325
原创 STL 源码分析之string(二)基础篇—append,reserve,assign
STL源码下载:https://www.sgi.com/tech/stl/download.html vs工程代码:http://download.csdn.net/download/jmh1996/10032316其中string类需要在3.1以后的版本才有定义。 如果对basic_string和_String_base结构不熟悉的可以随时看上一篇博客: STL源码分析之string(一)
2017-10-26 21:50:46 2488 1
原创 Apriori 算法实现--结合FP树
#coding:utf8__author__ = 'jmh081701'import numpy as npclass FPTree: index={} def __init__(self): self.count=1 self.name ="" self.children=[] self.parent=[]
2017-10-23 17:57:15 472
原创 机器学习数据标准和归一化
很多时候我们需要对数据集里面的数据进行标准化和归一化处理。例如: X={年龄(年),体重(kg)} 和 X={年龄(年),体重(g)},虽然逻辑上表达的同样的含义,但是反应在数据上两个分量却是相差特别大。这个时候我们往往希望两个分量的值不会因为量纲不同而差异太大,使得各的分量对模型的影响都差不多。这个时候我们就会使用标准化和归一化技术。另外,使用标准化和归一化技术还可以加速模型的收敛。这是因为试想
2017-10-21 21:09:45 1641
原创 rest api的编写
0.What is rest : REST(英文:Representational State Transfer,又称具象状态传输)是Roy Thomas Fielding博士于2000年在他的博士论文[1] 中提出来的一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相传递信息。 目前在三种主流的Web服务实现方案中,因为REST模式与复杂的SOAP和XML-R
2017-10-21 16:47:45 1163
原创 FP-growth算法——原理
FP-growth算法之前我们已经可以使用Apriori算法来在一个数据集里面找出那些支持度较高的元素组合,我们来回顾一下Apriori算法的核心。 Apriori算法的核心其实就是分三步: 1.在现有组合的基础上,生成可能的元素组合类型 2.遍历数据集,求得这些元素组合的支持度(频率) 3.剪枝,除去支持度不符合条件的组合。 这三步迭代即可。其中在
2017-10-20 23:42:04 4621 3
原创 STL 源码分析之string(一)基础篇
STL源码下载:https://www.sgi.com/tech/stl/download.html其中string类需要在3.1以后的版本才有定义。源码分析:typedef basic_string<char> string;string类是由模板类basic_string_String_base类template <class _Tp, class _Alloc> class _Strin
2017-10-20 16:32:17 4192
原创 图灵机简介
今天计算机病毒课上老师给我们介绍了一下图灵机。以前一直有听说过图灵机,今天简单地了解了一下图灵机,写下一些学习过程中的收获。图灵机是由图灵大神由1936年提出的一种确定的抽象计算模型,据说它可以被看做是终极强大的逻辑机器。图灵的基本思想是用机器来模拟人们用纸笔进行数学运算的过程,他把这样的过程看作下列两种简单的动作: • 在纸上写上或擦除某个符号; • 把注意力从纸的一个位置移动到另一个
2017-10-19 23:57:05 16032
原创 CSDN 里面的Markdown 添加数学公式
有的时候我们在写博客的时候 需要插入公式方法一:我以前的做法一直都是在word或latex编辑好公式然后截图为图片,再把公式以图片的形式上传并插入到博客里面。这个做法是截图和上传图片特别麻烦,但是也是一种方法,O(∩_∩)O哈哈~ 它的效果是看起来是这个样子的: 会有隐隐约约的logo.方法二:发现CSDN的markdown已经自带latex的公式解析功能!!!!2333!!来我们写几个公式试试
2017-10-19 21:48:21 5877 2
原创 WPA2协议新攻击方法(KRACK)—WPA2密钥重安装漏洞
Key Reinstallation Attacks Breaking WPA2 by forcing nonce reuse 今年9月份CCS公布了一篇新论文,该论文提出了一种新的攻击方法:Key Reinstallation Attacks,这种攻击方法对WPA2危害甚大。本文简单介绍该攻击方法。我们都知道所有WiFi网络都是靠WiFi Protected Access 协议的某个实现版
2017-10-18 18:11:22 13984
原创 python 基本socket
socket()函数Python 中,我们用 socket()函数来创建套接字,语法格式如下:socket.socket([family[, type[, proto]]])参数 family: 套接字家族可以使AF_UNIX或者AF_INET type: 套接字类型可以根据是面向连接的还是非连接分为SOCK_STREAM或SOCK_DGRAM protocol: 一般不填默认为0.Socke
2017-10-16 23:29:40 382
原创 Apriori算法--关联分析算法(一)
在实际生产生活我们经常会遇到一些“关联分析”(Association Analyse)的任务。举几个实际例子。1.人们的购物清单里面的各个商品有没有什么关联呢?就像下面这个购物清单写的那样子,右边是各个顾客所买的东西。 有的时候我们想问,顾客购买商品的时候会不会多个商品组合起来买呢?顾客会不会倾向于豆奶和尿布这两样商品一起买?我们怎么从一份购物清单里面发现这种往往会一起出现的商品组合呢?2.现在
2017-10-16 15:49:49 23846 2
原创 brainproduct recorder 远程采集脑电波实时数据
brainproduct 是一家专门提供脑电图采集、放大、记录、分析 服务的德国厂商。其recoder 系列产品十分厉害,在临床中使用的十分广泛。recoder运行起来就是类似于这个样子: 但是,对于我们程序开发人员来说,我们希望能够采集可操作的实时的脑波数据。可操作是指我们希望直接得到设备采集过来的实时原始数据,基于这些原始数据,我们可以做进一步的分析 比如使用人工神经网络对EGG进行建模等等。
2017-10-14 09:20:10 10247 11
原创 C# 使用NPOI操作Excel文件
什么是NPOI? What’s NPOI This project is the .NET version of POI Java project at http://poi.apache.org/. POI is an open source project which can help you read/write xls, doc, ppt files. It has a wide
2017-10-13 14:29:35 44890 22
原创 C++ 转型动作的新认识
之前学习C/C++的时候一直都认为类型转换(不管是显式的还是隐式的)其实什么都没有做,只是告诉编译器类型改变了一下,让它的翻译内存二进制数据的时候以新类型的套路去翻译而已。 然而当我看到Effective C++ rule 27.关于转型动作会触发其它动作时,我是很惊讶的。先贴出一段代码来看看,转型并不是什么都没有做,相反,它做了很多事情,我们一一来看。#include <stdio.h>#i
2017-10-12 11:06:17 411
原创 范数
在机器学习领域中,有时我们需要衡量一个向量的长度或大小。此时我们经常使用成为范数的函数来衡量向量的大小。 范数本质上是一类映射关系,将向量空间的所有向量映射到非负实数域上。这个非负的数值可以理解为向量的长度。 范数需要的满足的条件: 1)f(x)=0 <=> x=0,x是零向量 2)f(x)>=0,非负性 3)f(x+y)<=f(x)+f(y) 4) f(ax)=|a|f
2017-10-11 22:56:19 2149
原创 机器学习、神经网络计算过程的矩阵化与向量化
为什么需要矩阵化向量化运算过程?numpy在内容实现的时候,对矩阵运行进行了优化,其速度飞快。如果我们使用的是原始的for循环也可以完成任务,但是频繁的使用for循环,将会大大的增加计算时间。 举个例子: 一个输入样本X由1000000个特征组成的行向量,现在想计算 的值。其中 那么有两种写法:import numpy as npimport timedef mod1(X):
2017-10-11 15:01:41 4821
原创 分类器性能指标错误率、正确率、召回率
前言在使用机器学习的方法解决分类问题时,我们通常需要一个指标来衡量我们模型的性能,以下介绍一些常用的分类性能指标,在实际应用中可以依照应用需求采用相应的指标。错误率错误率是使用最普遍、最简单同时又是最粗糙的分类指标。其计算方法为: 设测试样本集T={(X1,Y1),···,(Xn,Yn)},其中Xi为该样本i的输入特征,Yi为样本的真实标签。 T的预测结果:PY={PY1,PY2,···,PYn
2017-10-08 16:12:07 21953
原创 numpy 切片操作
numpy在处理数据的时候,经常会有切片操作,如提取指定几行的数据或者几列的数据,本文记录一些典型的切片方法以备日后查看。一维数组的切片:数组[start:end:step] 从start到end,以step为步长的元素 且:start>>> b=np.random.randint(1,10,[10])>>> barray([6, 5, 2, 3, 9, 9, 3, 8, 5, 8])正向第
2017-10-05 11:05:39 4875 3
原创 numpy生成随机数random模块
import numpy as np 常用函数:rand(d0, d1, …, dn) 生成形状为[d0,d1,d2,…,dn]的随机数(0-1)>>> np.random.rand(1,3)array([[ 0.10761056, 0.26262689, 0.83970223]])randn(d0, d1, …, dn) rand normal 生成形状为[d0,d1,…,dn]的标准
2017-10-04 18:32:34 1139
原创 numpy 函数里面的axis参数的含义
前言numpy支持对矩阵和数组进行运算,因此很多numpy的很多运算都需要指定操作的维数参数axis(当然这些axis都有带默认值的),本博客以numpy.sum求和函数为例,具体分析axis参数不同取值下的含义先说结论设 numpy.sum的输入矩阵为a. numpy.sum的返回矩阵为rst. 则矩阵a的形状为:sp=numpy.shape(a),例如sp=[m,n,p,q···] rst的
2017-10-03 01:45:13 6847
定制版LightGBM
2018-06-24
深度学习_高清PDF,带书签目录
2017-10-15
神经网络在艺术风格上的学习应用
2016-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人