- 博客(57)
- 收藏
- 关注
原创 “symbol lookup error“ hadoop
python: symbol lookup error: /WHERECONDAISINSTALLED/lib/python3.6/site-packages/numpy/core/../../../../libmkl_intel_thread.so: undefined symbol: omp_get_num_procs
2021-05-26 19:31:23
801
原创 python核心笔记-9.符合python风格的对象
python对象的表现形式,备选构造方法,classmethod与staticmethod的区别,内置的 format() 函数和 str.format() 方法,如何将python对象变成可散列对象,私有属性和“受保护的”属性,使用\_\_slots\_\_类属性节省空间,使用类属性。
2020-12-06 16:33:32
395
原创 字符串匹配算法之Rabin-Karp,KMP算法
Rabin-Karp算法Rabin-Karp算法是由M.O.Rabin和R.A.Karp发明的一种基于散列的字符串查找算法。Rabin_karp算法的思想是通过将字符串的比较转回成数字的比较。比较两个长度为m的字符串是否相等需要O(m)时间,而比较两个数字是否相等通常可以是O(1)。为了将字符串映射称对应的数字,需要用到哈希函数。这里存在一个问题就是利用哈希函数将字符串映射成对应的数字有可能发生哈希冲突,也就是说两个字符串通过哈希函数得到数字相等,但是这两个字符不同。Rabin-Karp的解决方法是,
2020-09-14 14:41:47
1101
原创 leetcode刷题日记———深度优先搜索(岛屿问题)
岛屿数量题目描述:给你一个由 ‘1’(陆地)和 ‘0’(水)组成的的二维网格,请你计算网格中岛屿的数量。岛屿总是被水包围,并且每座岛屿只能由水平方向或竖直方向上相邻的陆地连接形成。此外,你可以假设该网格的四条边均被水包围。输入:11000110000010000011输出: 3解释: 每座岛屿只能由水平和/或竖直方向上相邻的陆地连接而成基本思路:深度优先搜索,遍历矩阵中所有为1的网格,然后dfs,这里将访问过的节点做标记,防止再次访问。代码如下:class Solution:
2020-08-19 21:40:24
1107
原创 leetcode刷题---树问题总结
一、二叉树的前序、后序、中序,层次遍历的递归和循环实现class TreeNode(object): """定义节点类""" def __init__(self, x, left=None, right=None): self.val = x self.left = None self.right = Noneclass Tree(object): def __init__(self): self.root = T
2020-08-02 18:52:58
528
原创 java多线程
多线程是java最基本的一种并发模型。1、创建新线程1.1 创建新线程的方法方法一:从Thread派生一个自定义类,然后覆写run() 方法;线程的执行代码写在run()方法中。方法二:创建一个Thread实例时,传入一个Runnable实例方法三:Runnable是一个函数式接口,可以用lambda表达式简历一个实例;在线程中调用Thread.sleep(),强迫线程暂停一段时间,sleep()传入的参数是毫秒。1.2 线程的优先级可以对线程设定优先级,设定优先级的方法是:Thread
2020-07-31 20:57:06
128
原创 如何进行特征工程,以及特征工程的一些理论
正如一句业界经典的话所说,“Garbage in, garbage out”,对于一个机器学习问题,数据和特征决定了结果的上限,而模型、算法的选择和优化决定了模型的下限。1、什么是特征工程以及其重要性1.1 特征工程特征工程,顾名思义,是对原始数据进行一系列工程输出力,将其提炼为特征,作为输入供算法和模型使用。维基百科:Feature engineering is the process of using domain knowledge of the data to create feature.
2020-07-16 20:27:25
1409
原创 python--函数装饰器的解析
装饰器:用于在代码运行期间动态增强函数的行为的方式。在面向对象(OOP)的设计模式中,decorator被称为装饰模式。OOP的装饰模式需要通过继承和组合来实现,而Python除了能支持OOP的decorator外,直接从语法层次支持decorator。Python的decorator可以用函数实现,也可以用类实现。函数是可调用的对象,其参数是另一个函数(被装饰的函数)。装饰器可能会处理被装饰的函数,然后把它返回,或者将其替换成另一个函数或可调用对象。我们先看看装饰器的第一个特性1、动态增强被装饰函
2020-07-07 14:44:42
157
原创 支持向量机SVM常见问题解析
1、支持向量机的基本思想寻找在样本空间是使样本分开的间隔最大的超平面。2、什么叫拉格朗日乘子法,以及它的基本想法?拉格朗日乘子法是一种寻找多元函数在一组约束条件下求极值的方法,通过引入拉格朗日乘子将有d个变量与k个约束条件的优化问题转化成d+k个变量的无约束优化问题。我们知道我们要求解的是最小化问题,如果我们构造一个函数,使得该函数在可行解区域与元目标函数完全一致,而在可行解区域外的数值非常大,甚至无穷大,那么这个没有约束条件的新目标函数的优化问题就与原来有约束条件的原始目标函数的优化问题等价。这
2020-07-04 16:23:36
2369
原创 Bert源码解析笔记(三):Fine-tune
Bert官方给出了两个任务的fine-tune代码:run_classifier.pyrun_squad.py一、run_classifier.py1、参数## Required parametersflags.DEFINE_string( "data_dir", None, "The input data dir. Should contain the .tsv files (or other data files) " "for the task.")flag
2020-07-03 18:04:04
657
原创 Bert源码解析笔记(二):模型主体
Bert模型是基于Transformer架构的(论文:Attention is all you need),它在处理Seq2Seq问题的时候,直接利用注意力机制代替了传统RNN,LSTM,RNN等的固有模式,这些之前固有的模式有个问题就是计算输出的时候不能并行计算,所以Transformner的比之前固有的模式优势在于靠attention机制,不使用RNN,CNN等,并行度高,通过attention,抓长距离依赖关系比RNN强。Bert大火却不懂Transformer?这篇文章关于Tansformer说的比
2020-07-02 17:04:16
618
原创 Bert源码解析笔记(一):Pre-train
pre-train涉及三个模块tokenization.pycreate_pretraining_data.pyrun_pretraining.py其中tokenization是对原始句子内容的解析,分为BasicTokenizer和WordpieceTokenizer和Fulltokenizer三种,其中FullTokenizer是前两种方法的结合,不只在预训练中,在fine-tune和推断过程同样要用到它;create_pretraining_data顾名思义就是将原始语料转换成适合模型预训
2020-06-28 17:48:32
1296
原创 操作系统常见问题总结
1、操作系统的四个特性并发:同一段时间内多个程序执行(注意区别并行和并发,并行是同一时刻的多个事件,并发是同一时间段内的多个事件)共享:系统中的资源可以被内存中多个并发执行的进线程共同使用虚拟:通过时分复用(如分时系统)以及空分复用(如虚拟内存)技术实现把一个物理实体虚拟为多个异步:系统中的进程是以走走停停的方式执行的,且以一种不可预知的速度推进2、操作系统的主要功能处理机管理:处理机分配都是以进程为单位,所以处理机管理也被看做是进程管理。包括进程控制,进程同步,进程通信和进程调度存储器管理(
2020-06-28 15:19:53
2225
原创 决策树python实现及常见问题总结
决策树基本知识,以及三种决策树算法ID3,C4.5,CART之间的比较。利用python实现一个简单的决策树分类模型。
2020-06-15 19:12:11
2230
原创 常见的概率论问题清单及其答案
概率论与信息论基础1、比较“频率论概率”和“贝叶斯概率”?频率学派对概率的定义包含两个要点:(1):事件A发生的概率是一个常数,也就是说频率学派认为事件发生的概率是一个确定的数,可以直接求出来。(2):事件A发生的概率是通过重复多次进行同一实验得到的。当重复实验的次数趋于无穷,事件的频率趋于事件A发生的概率。贝叶斯学派对概率的定义包括以下三个要点:(1):事件A发生的概率是变化的,并非...
2020-06-11 11:55:45
8371
原创 leetcode----链表的排序问题
链表排序题目描述:在 O(n log n) 时间复杂度和常数级空间复杂度下,对链表进行排序。例如:输入: 4->2->1->3输出: 1->2->3->4。思路分析:因为要求在O(nlogn)的时间复杂度,所以想到使用归并排序。下面对归并排序做个介绍。归并排序基本方法如下:(1)把待排序序列的n个记录看成n个有序子序列,每个子序列长度为1.(2)把...
2020-06-11 11:54:20
209
原创 SQL面试题:一条SQL语句执行很慢的原因?
分类讨论:一条SQL语句执行的很慢可以分为以下两种情况:偶尔会出现很慢的情况,大多数是正常的在数据量量不变的情况下,这条SQL语句一直以来都执行的很慢。针对第一种情况的原因有:⼀条 SQL ⼤多数情况正常,偶尔才能出现很慢的情况,针对这种情况,我觉得这条SQL语句的书写本身是没什么问题的,⽽是其他原因导致的,那会是什么原因呢?1、数据库在刷新脏页mySQL脏页:当内存数据页和磁盘数据页上的内容不一致时,我们称这个内存页为脏页;内存数据写入磁盘后,内存页上的数据和磁盘页上的数据就一致了,我
2020-06-10 11:48:04
500
原创 基于python实现通俗易懂讲解并查集
基于python讲解并查集的原理。并通过过leetcode例题进行讲解。“并”的意思是把两个处在同一个连通分量的结点给并到一起.“查”的意思是查找一个结点的根节点.“并”的时候需要用到“查”
2020-06-08 12:33:48
1079
1
原创 深入理解MySQL用户自定义变量及示例讲解
一,前言之前在做题过程中经常碰到可以使用变量解决的问题,以下对这些问题及用户自定义变量做个总结。首先看一个例题:活跃用户表 Accounts:+---------------+---------+| Column Name | Type |+---------------+---------+| id | int || name | varchar |+---------------+---------+id 是该表主键.该表包
2020-06-05 10:00:37
613
原创 深度学习基础的常见问题
1、神经网络更“深”有什么意义?倾向于“一定范围内”。1、在神经元数量相同的情况下,更深的网络结构具有较大的容量,划分组合增加了指数级的表达空间,能够组合更多不同类型的子结构。也就意味着更容易学习和表达各种特征。2、隐藏层的增加则意味着由激活函数带来的非线性变换的嵌套层数更多,可以构造更复杂的映射关系。2、什么是超参数?超参数:超参数就是在学习过程之前设置的一组值,而不是通过训练得到的参数。超参数通常存在于:定义关于模型的更高层次的概念,如复杂性或学习能力。不能直接从标准模型学习过程中的数
2020-05-31 15:43:08
465
原创 注意力机制Attention Machnism是什么以及为什么
Attention是一种用于提升基于RNN(LSTM或GRU)的Encoder + Decoder模型的效果的的机制(Mechanism),一般称为Attention Mechanism。Attention Mechanism目前非常流行,广泛应用于机器翻译、语音识别、图像标注(Image Caption)等很多领域,之所以它这么受欢迎,是因为Attention给模型赋予了区分辨别的能力
2020-05-27 17:26:39
974
原创 如何解决SQL中求平均值的问题
SQL中求平均值得问题可能用到的聚合函数:AVG() :求列的平均值SUM():求和行的和COUNT():计算行的数目ROUND():结果保留几位小数,例:ROUND(a,2)保留两位小数下面看一个例题:Table: Prices+---------------+---------+| Column Name | Type |+---------------+---------+| product_id | int || start_date | dat
2020-05-26 08:59:39
24199
1
原创 运行文件报错SyntaxError(unicode error)
```pythontf.saved_model.save(demo,"C:\Users\chujie\Desktop",signatures = {"serving_default":demo.add_print})```出现SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in positi
2020-05-24 17:29:49
2588
原创 从索引背后的机制理解MySQL索引使用策略及优化
MySQL的优化主要分为结构优化和查询优化。本文讨论的高性能索引优化策略主要属于结构优化范畴。本文的呢绒完全基于[这篇文章的理论基础](https://blog.csdn.net/vinojie/article/details/106234694),只要我们理解了索引背后的机制,那么选择高性能的策略就变成了纯粹的推理,并且可以理解这些策略背后的逻辑。
2020-05-22 14:57:24
213
原创 为什么梯度消失在传统RNN中相比于CNN更严重?
当神经网络层数非常深时,神经网络优化算法会面临的另外一个难题就是长期依赖问题——由于变深的结构使模型丧失学习先前信息的能力,让优化变得极其困难。而循环神经网络的设计初衷之一就是为了能够捕获长距离输入之间的依赖关系,深度经网络中的梯度消失会让使用BPTT算法学习到的循环神经网络并不能成功捕获到长距离的依赖关系。为什么这个问题在RNN中更加凸显呢?这是因为循环审计宁网络在很长的时间序列的各个时刻重复应用相同操作来构建非常深的计算图,并且模型参数共享,这使得梯度消失的问题更加严重;下面我们先看看传统RNN
2020-05-20 17:28:19
765
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人