kakak_
码龄6年
关注
提问 私信
  • 博客:88,799
    88,799
    总访问量
  • 108
    原创
  • 2,001,985
    排名
  • 5
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2019-05-03
博客简介:

kakak_的博客

查看详细资料
个人成就
  • 获得50次点赞
  • 内容获得4次评论
  • 获得404次收藏
创作历程
  • 1篇
    2021年
  • 101篇
    2020年
  • 6篇
    2019年
成就勋章
TA的专栏
  • 其它
  • 前端
    1篇
  • python
    11篇
  • NLP
    4篇
  • Data mining
    11篇
  • 数学
    3篇
  • Machine Learning
    38篇
  • 操作系统与计算机网络
    5篇
  • Deep Learning
    4篇
  • CV
    10篇
  • 数据结构
    8篇
兴趣领域 设置
  • 数据结构与算法
    推荐算法
  • 人工智能
    opencv计算机视觉机器学习深度学习神经网络tensorflowpytorch图像处理数据分析
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

344人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

前端

关于前端1、静态网页和动态网页静态网页:浏览者所看到的每个页面是建站者上传到服务器上的一个 html ( htm )文件,交互性差,没有数据库的支持,当网站信息量很大的时候网页的制作和维护都很困难。静态网页的每个网页都有一个固定的URL,且网页URL以.htm、.html、.shtml、.xml等形式为后缀。动态网页:可以根据不同的用户请求,时间或者环境的需求动态生成不同的网页内容个。动态网页一般以数据库技术为基础,在页面里嵌套程序,这种网站对一些框架相同、更新较快的信息页面进行内容与形式的分离,
原创
发布博客 2021.05.15 ·
184 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python代码编译

把代码编译成字节码 —pyc文件python -m py_compile <filename>.py
原创
发布博客 2020.10.13 ·
237 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Dataframe

Dataframe–apply, transform, aggSeries.transform( func, axis=0, *args, **kwargs)Series.agg( func, axis=0, *args, **kwargs)DataFrame.agg( func, axis=0, *args, **kwargs)df = pd.DataFrame({'A': range(3), 'B': range(1, 4)}) A B0 0 11 1 22 2 3
原创
发布博客 2020.10.09 ·
231 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

functools.lru_cache

缓存是一种将定量数据加以保存以备迎合后续获取需求的处理方式,旨在加快数据获取的速度。数据的生成过程可能需要经过计算,规整,远程获取等操作,如果是同一份数据需要多次使用,每次都重新生成会大大浪费时间。所以,如果将计算或者远程请求等操作获得的数据缓存下来,会加快后续的数据获取需求。@functools.lru_cache(maxsize=None, typed=False)LRU (Least Recently Used,最近最少使用) 算法本是一种缓存淘汰策略。主要用于找出内存中较久时间没有使用.
原创
发布博客 2020.07.27 ·
720 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

python内置函数

find检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,如果包含子字符串返回开始的索引值,否则返回-1。str.find(str, beg=0, end=len(string))filter用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。filter(function, iterable)def is_odd(n): return n % 2 == 1 newlist = fil.
原创
发布博客 2020.07.20 ·
119 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python中bisect模块

python内置模块bisect,用于有序序列的插入和查找。查找: bisect(array, item)插入: insort(array,item)import bisect a = [1,4,6,8,12,15,20]position = bisect.bisect(a,13)print(position) # 5 a.insert(position,13)print(a)# 等价于bisect.insort(a,13)bisect_left:当插入的元素和序列中的
原创
发布博客 2020.07.18 ·
277 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

GRU

GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU(2014年提出)LSTM(1997提出)相比LSTM,使用GRU能够达到相当的效果,并且相比之下更容易进行训练,能够很大程度上提高训练效率GRU的输入输出结构与普通的RNN是一样的。在LSTM中引入了三个门函数:输入门、遗忘门和.
原创
发布博客 2020.07.15 ·
960 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Hadoop

Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库HbaseMap/ReduceMapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce。Mapreduce是一种编程模型,是一种编程方法,抽象理论。...
原创
发布博客 2020.06.21 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

线程和进程

线程是为了提高系统内程序的并发执行的程度。进程=资源+指令执行。线程是比进程要小的一个运行实体,线程基本上是不拥有资源的。多线程OS中的同步机制互斥锁mutex互斥锁比较简单,用于实现线程间对资源互斥访问的机制。有两种状态,开锁和关锁状态。当一个线程需要读/写一个共享数据时,线程首先应该为该数据段所设置的mutex执行关锁命令。首先判别mutex的状态,如果已经处于关锁状态,则访问该数据段的线程将被阻塞;如果mutex处于开锁状态,则将mutex关上之后进行读/写。完成读/写之后将mute.
原创
发布博客 2020.06.17 ·
187 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Attention机制

编码器-解码器 (Encode-Decode) 结构:将输入序列编码成一个固定长度的向量表示,对于长度较短的输入序列而言,该模型能够学习出对应合理的向量表示。然而,这种模型存在的问题在于:当输入序列非常长时,模型难以学到合理的向量表示。Attention机制打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。(将encoder的每一个隐藏状态设.
原创
发布博客 2020.06.17 ·
714 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

LDA

线性判别分析(Linear Discriminant Analysis, LDA)LDA是一种监督学习的降维技术,它的数据集的每个样本是有类别输出的。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想:“投影后类内方差最小,类间方差最大”。将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。瑞利商????(????,????)R(A,x)=xHAxxHxR(A,x) = \frac{x^HAx}{x^Hx}R(A,x)=
原创
发布博客 2020.06.14 ·
172 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

lstm_dropout

由于网络参数过多,训练数据少,或者训练次数过多,会产生过拟合的现象。dropout是神经网络中避免过拟合最有效的正则化方法dropout 每一层的神经元按照不同的概率进行dropout,这样每次训练的网络都不一样,对每一个的batch就相当于训练了一个网络,dropout本质是一种模型融合的方式,当dropout设置为0.5时,模型总类最多为2^n, 另外在更新参数时,只对保留的神经元进行更新,也能加快训练速度。传统的dropout在rnn中使用的效果不是很好,因为rnn有放大噪音的功能,所以会反过.
原创
发布博客 2020.06.10 ·
8757 阅读 ·
12 点赞 ·
0 评论 ·
26 收藏

batch_size

全数据集 ( Full Batch Learning )随着数据集的海量增长和内存限制,一次性载入所有的数据进来变得越来越不可行。以 Rprop 的方式迭代,会由于各个 Batch 之间的采样差异性,各次梯度修正值相互抵消,无法修正。在线学习(Online Learning)使用在线学习,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。批梯度下降法(Mini-batches Learning)如果数据集足够充分,那么用一半(甚至少得多)的数据训练算出来的梯度与用全部
原创
发布博客 2020.06.08 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sklearn.feature_extraction

TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。IDF(x)=logNN(x)IDF(x) = log\frac{N}{N(x)}IDF(x)=logN(x)N​from sklearn.feature_extraction.text import TfidfVectorizertfidf = = TfidfVectorizer(stop_words=stpwrdlst, subli.
原创
发布博客 2020.06.02 ·
551 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

LSTM

RNN(recurrent neural network,循环神经网络)当处理与事件发生的时间轴有关系的问题时,比如自然语言处理,文本处理,文字的上下文是有一定的关联性的;时间序列数据,如连续几天的天气状况,当日的天气情况与过去的几天有某些联系。在考虑这些和时间轴相关的问题时,传统的神经网络就无能为力了,因此就有了RNN。递归神经网络(RNN)是两种人工神经网络的总称。一种是时间递归神经网络(recurrent neural network),另一种是结构递归神经网络(recursive neural
原创
发布博客 2020.05.30 ·
489 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

LightGBM

LightGBM更快的训练速度和更高的效率: LightGBM使用基于直方图的算法。例如,它将连续的特征值分桶(buckets)装进离散的箱子(bins),这是的训练过程中变得更快。更低的内存占用:使用离散的箱子(bins)保存并替换连续值导致更少的内存占用。更高的准确率(相比于其他任何提升算法) : 它通过leaf-wise分裂方法产生比level-wise分裂方法更复杂的树,这就是实现更高准确率的主要因素。然而,它有时候或导致过拟合,但是我们可以通过设置 max-depth 参数来防止过拟合的发
原创
发布博客 2020.05.28 ·
300 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

train_val loss

神经网络具有两大能力:学习能力,指在训练集上精度。泛化能力,指在测试集上精度。对于一个大型神经网络在一个大数据集上跑,loss持续不降,第一步先减小数据量,比如只在单张图片上跑,使用小epochsize,观察LOSS下降情况。如果loss还是不下降说明网络没有学习能力,应该调整模型,因为任何一个网络都会有学习能力。train loss 不断下降,test loss不断下降,说明网络仍在学习;train loss 不断下降,test loss趋于不变,说明网络过拟合;train l
原创
发布博客 2020.05.27 ·
639 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

缺失值处理

直接使用含有缺失值的特征删除含有缺失值的特征缺失值补全缺失值补全均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知和矩阵补全均值插补如果样本属性的距离是可度量的,则使用该属性有效值的平均值来插补缺失的值;如果的距离是不可度量的,则使用该属性有效值的众数来插补缺失的值。...
原创
发布博客 2020.05.26 ·
214 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

gensim word2vec

from gensim.models import word2vecsentences: 要分析的语料,可以是一个列表,或者从文件中遍历读出。size: 词向量的维度,默认值是100。如果是不大的语料,比如小于100M的文本语料,则使用默认值一般就可以了。如果是超大的语料,建议增大维度。window:即词向量上下文最大距离,window越大,则和某一词较远的词也会产生上下文关系。默认值为5。sg: 即word2vec两个模型的选择。如果是0, 则是CBOW模型,是1则是Skip-Gram模型,默认
原创
发布博客 2020.05.19 ·
271 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

语义分割常用metric

Pixel acc:比较预测label和实际label,像素级别误差。对于位置的偏移过分敏感,肉眼不可见的偏移都会产生大量的像素误差。IOU: 交并比,DetectionResult与Ground Truth的交集比上它们的并集。只是从单个像素点本身去考虑该点的预测是否与label重合,而没有从全局去考虑预测的整体形状是否与label结果形状吻合。混淆矩阵(Confusion Matrix)分别统计分类模型中归错,归对类的观测值的个数,然后把结果放在一个表里展示出来。矩阵对角线上的数字,为当.
原创
发布博客 2020.05.15 ·
2012 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏
加载更多