SZ-crystal

Cris_Lee
私信 关注
Cris_Lee卡卡卡
码龄4年

https://github.com/lrs1353281004

  • 169,331
    被访问量
  • 100
    原创文章
  • 33,959
    作者排名
  • 70
    粉丝数量
  • 于 2017-02-21 加入CSDN
获得成就
  • 获得126次点赞
  • 内容获得60次评论
  • 获得306次收藏
  • GitHub 获得175Stars
荣誉勋章
TA的专栏
  • leetcode
    33篇
  • NLP领域-顶会论文-总结与分析
    9篇
  • pytorch
    3篇
  • 统计学
    1篇
  • CS224n_winter,2019
    3篇
  • matlab函数说明
    2篇
  • markdown
    2篇
  • 机器学习
    17篇
  • 数据结构
    15篇
  • 算法基础
    19篇
  • python
    28篇
  • 模型推导
    1篇
  • linux
    10篇
  • ubuntu
    2篇
  • shell
    2篇
  • Pig
    1篇
  • Hadoop
    1篇
  • 数理统计
    1篇
  • git
    2篇
  • 深度学习
    7篇
  • Hive
    1篇
  • vim
    1篇
  • 计算机基础
    4篇
  • 计算机视觉
  • 自然语言处理
    12篇
  • NLP
    14篇
  • 环境搭建
    1篇
  • debug
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

leetcode题解记录-304二维区域和检索 - 矩阵不可变(python3)

题目304二维区域和检索 - 矩阵不可变题目链接官方题解代码记录class NumMatrix: def __init__(self, matrix: List[List[int]]): self.matrix=matrix if matrix: self.rows_num=len(matrix) self.cols_num=len(matrix[0]) self.sum=[[0 for i in range(self.cols_num+1)] for j in ran
原创
10阅读
0评论
0点赞
发布博客于 3 天前

leetcode题解记录-1052 爱生气的书店老板(python3)

题目1052 爱生气的书店老板题目链接官方题解解法思路: 滑动窗口代码记录class Solution: def maxSatisfied(self, customers: List[int], grumpy: List[int], X: int) -> int: base_cnt = 0 n = len(customers) for i in range(n): if grumpy[i]==0: base_cnt += cu
原创
21阅读
0评论
0点赞
发布博客于 11 天前

leetcode题解记录-766 托普利茨矩阵(python3)

题目766 托普利茨矩阵题目链接官方题解解法思路: 广度优先遍历 BFS代码记录class Solution: def isToeplitzMatrix(self, matrix: List[List[int]]) -> bool: m,n = len(matrix),len(matrix[0]) queue = [(0,n-1)] while queue: next_queue=[] values=[] for n
原创
18阅读
0评论
0点赞
发布博客于 11 天前

leetcode题解记录-1471 数组中的K个最强值(python3)

题目1471 数组中的K个最强值题目链接解法思路: 双指针代码记录class Solution: def getStrongest(self, arr: List[int], k: int) -> List[int]: arr.sort() m = arr[(len(arr)-1)//2] res=[] cnt=0 left=0 right=len(arr)-1 while cnt<k: if a
原创
11阅读
0评论
0点赞
发布博客于 15 天前

leetcode题解记录-995 K 连续位的最小翻转次数(python3)

题目995 K 连续位的最小翻转次数题目链接官方题解解法思路: 差分数组,滑动窗口代码记录#base method 基础方案,会超时class Solution: def minKBitFlips(self, A: List[int], K: int) -> int: res=0 for i in range(len(A)-K+1): if A[i]==0: for j in range(K): A[i+j]=1-A[
原创
13阅读
0评论
0点赞
发布博客于 15 天前

基于transformer的文本生成开源项目(基于pytorch)

基于transformer的文本生成问题训练pipeline项目开源地址main requirementspython 3.6pytorch 1.6.0+cu101项目说明基于transformer的文本生成问题pipeline。(基于对话数据进行闲聊模型训练和测试)训练方式为teacher forcing(基于下三角mask实现,具体可参考loss部分代码)。模型训练python train.py推理python inference.py训练细节参考训练数据(LCCC_base,
原创
27阅读
0评论
0点赞
发布博客于 16 天前

leetcode题解记录-567字符串的排列(python3)

题目字符串的排列题目链接官方题解解法思路: 滑动窗口代码记录class Solution: def checkInclusion(self, s1: str, s2: str) -> bool: if len(s1)>len(s2): return False from collections import Counter tgt_set,cur_set=Counter(),Counter() for s in s1: tgt_set[s]+=1 f
原创
8阅读
0评论
0点赞
发布博客于 24 天前

leetcode题解记录-978 最长湍流子数组(python3)

题目最长湍流子数组题目链接官方题解代码记录class Solution: def maxTurbulenceSize(self, arr: List[int]) -> int: res=1 cur_cnt=1 pre_flag=0 cur_flag=0 for i in range(1,len(arr)): cur_flag = 0 if arr[i]-arr[i-1]==0 else (arr[i]-arr[i-1])/abs(arr[i]-arr[i-1])
原创
16阅读
0评论
0点赞
发布博客于 25 天前

leetcode题解记录-1143最长公共子序列(python3)

题目最长公共子序列题目链接暂无官方题解,可参考维基百科,动态规划解法。代码记录class Solution: def longestCommonSubsequence(self, text1: str, text2: str) -> int: m,n = len(text1),len(text2) dp = [[0 for j in range(n+1)] for i in range(m+1)] for i in range(1,m+1):
原创
13阅读
0评论
0点赞
发布博客于 28 天前

FedED:用于医学关系提取的联邦学习(基于融合蒸馏) [EMNLP 2020]

FedED:用于医学关系提取的联邦学习(基于融合蒸馏)论文题目: FedED: Federated Learning via Ensemble Distillation for Medical Relation ExtractionDianbo论文出处: EMNLP 2020论文原文地址这里记录以下这篇论文的整体技术流程,关键思路以及亮点。论文解决的是存在数据隐私要求情形下的医学关系抽取问题,也就是说不能将所有数据集中的进行中心化的训练,对数据隐私的解决方案是联邦学习。总结来说,这篇论文的两个立
原创
143阅读
0评论
0点赞
发布博客于 2 月前

leetcode题解记录-188买卖股票的最佳时机 IV(python3)

题目买卖股票的最佳时机 IV题目链接官方题解思路类似714买卖股票的最佳时机含手续费对储存的状态稍作修改:对于每个时间节点,存储不同剩余交易次数下已持有股票,或者未持有股票这两类情况下的最大利润。最终输出未持有股票情况下的最大利润即可。其中交易次数最大有效次数为: k = min(k,len(prices)//2)代码记录class Solution: def maxProfit(self, k: int, prices: List[int]) -> int: k
原创
42阅读
1评论
0点赞
发布博客于 2 月前

leetcode题解记录-455分发饼干(python3)

题目分发饼干题目链接官方题解
原创
29阅读
0评论
0点赞
发布博客于 2 月前

leetcode题解记录-135分发糖果(python3)

题目分发糖果题目链接官方题解代码记录class Solution: def candy(self, ratings: List[int]) -> int: total_cnt=0 single_cnt=1 import math N=len(ratings) ratings=[math.inf]+ratings+[math.inf] left=1 for i in range(1,N+1): if ratings[i]>ratings[i+1]:
原创
24阅读
0评论
0点赞
发布博客于 2 月前

leetcode题解记录-714买卖股票的最佳时机含手续费(python3)

题目买卖股票的最佳时机含手续费题目链接官方题解对于每个时间节点,只有两种状态:已持有股票,或者未持有股票,分别维护这两种情况下的最大利润。最终输出未持有股票情况下的利润即可。代码记录class Solution: def maxProfit(self, prices: List[int], fee: int) -> int: import math profit_buy=-math.inf profit_nobuy=0 for i in range(len(prices)
原创
54阅读
0评论
1点赞
发布博客于 2 月前

leetcode题解记录-208实现 Trie (前缀树)(python3)

题目实现 Trie (前缀树)题目链接官方题解这篇博客对前缀树介绍的比较清晰,建议阅读。代码记录class trienode: def __init__(self): self.is_key_word=False self.next=[None for i in range(26)]class Trie: def __init__(self): """ Initialize your data structure
原创
18阅读
0评论
0点赞
发布博客于 2 月前

codeblocks更改配色方案-亲测可用

codeblocks更改配色方案-亲测可用按这篇文章流程操作即可,亲测可用
转载
44阅读
0评论
0点赞
发布博客于 2 月前

leetcode题解记录-452用最少数量的箭引爆气球(python3)

题目用最少数量的箭引爆气球题目链接官方题解代码记录class Solution: def findMinArrowShots(self, points: List[List[int]]) -> int: points.sort(key=lambda x:x[0]) res=0 import math left_flag =-math.inf right_flag =-math.inf for point in points
原创
33阅读
0评论
0点赞
发布博客于 3 月前

hadoop hdfs 常用命令集合

查看当前路径下目录及文件hdfs dfs -ls ./创建新目录hdfs dfs -mkdir -p ./liruosong从hdfs下载到本地hdfs dfs -get hdfs文件 本地路径本地文件上传hdfshdfs dfs -put 本地文件 hdfs路径将hdfs上某一文件夹下所有文件合并成一个单文件hdfs dfs -cat /folderpath/* | hdfs dfs -copyFromLocal - /newfolderpath/file...
原创
48阅读
0评论
0点赞
发布博客于 3 月前

leetcode题解记录-406根据身高重建队列(python3)

题目根据身高重建队列题目链接官方题解代码记录方法一class Solution: def reconstructQueue(self, people: List[List[int]]) -> List[List[int]]: people.sort(key=lambda x:x[0]-1e-8*x[1]) people_num=len(people) empty_list=[i for i in range(people_num)] res=
原创
40阅读
0评论
0点赞
发布博客于 3 月前

leetcode题解记录-922按奇偶排序数组 II(C++)

题目按奇偶排序数组 II题目链接官方题解关键词双指针代码记录方法二 双指针#include <vector>#include <iostream>class Solution {public: std::vector<int> sortArrayByParityII(std::vector<int>& A) { int len=A.size(); int odd=1; for (int
原创
36阅读
0评论
1点赞
发布博客于 3 月前

leetcode题解记录-752打开转盘锁(python3)

题目打开转盘锁题目链接官方题解关键词广度优先遍历(BFS)代码记录BFSclass Solution: def __init__(self): import math self.min_route=math.inf self.seen={} def openLock(self, deadends: List[str], target: str) -> int: if '0000' in deadends: return -1 import math d
原创
127阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-144二叉树的前序遍历(python3)

题目二叉树的前序遍历题目链接官方题解关键词二叉树,递归,栈代码记录方法一 递归# Definition for a binary tree node.# class TreeNode:# def __init__(self, val=0, left=None, right=None):# self.val = val# self.left = left# self.right = rightclass Solution:
原创
31阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-200岛屿数量(python3)

题目岛屿数量题目链接官方题解关键词队列,广度优先搜索代码记录class Solution: def numIslands(self, grid: List[List[str]]) -> int: from collections import deque m,n = len(grid),len(grid[0]) visited={} res=0 for i in range(m): for j in range(n):
原创
61阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-763划分字母区间(python3)

题目划分字母区间题目链接官方题解关键词双指针,贪心算法代码记录下面的实现其实和官方解法类似,只是官方题解是记录字符最后出现的位置,我这里是是通过记录字符出现的次数。class Solution: def partitionLabels(self, S: str) -> List[int]: total_dic={} for i in range(len(S)): if S[i] in total_dic: total_dic[S[i
原创
45阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-925长按键入(python3)

题目长按键入题目链接官方题解关键词双指针代码记录class Solution: def isLongPressedName(self, name: str, typed: str) -> bool: i=0 j=0 while j<len(typed): if i<len(name) and name[i]==typed[j]: i +=1 j +=1 elif j>0 and t
原创
46阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-622设计循环队列(python3)

题目设计循环队列题目链接官方题解关键词队列,数组代码记录class MyCircularQueue: def __init__(self, k: int): """ Initialize your data structure here. Set the size of the queue to be k. """ self.queue=[None for i in range(k)] self.head
原创
64阅读
1评论
0点赞
发布博客于 4 月前

leetcode题解记录-61旋转链表(python3)

题目旋转链表题目链接官方题解关键词链表代码记录# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def rotateRight(self, head: ListNode, k: int) -> ListNode: if n
原创
40阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-138复制带随机指针的链表(python3)

题目复制带随机指针的链表题目链接官方题解关键词链表代码记录"""# Definition for a Node.class Node: def __init__(self, x: int, next: 'Node' = None, random: 'Node' = None): self.val = int(x) self.next = next self.random = random"""class Solution:
原创
41阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-844比较含退格的字符串(python3)

题目比较含退格的字符串题目链接官方题解关键词字符串,双指针代码记录方法一 重构字符串两个字符串长度分别为N,M时间复杂度O(N+M),空间复杂度O(N+M)class Solution: def backspaceCompare(self, S: str, T: str) -> bool: def transfer_str(s): res=[] for i in range(len(s)): cur=s[i]
原创
46阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-430扁平化多级双向链表(python3)

题目比较含退格的字符串题目链接官方题解关键词字符串,双指针代码记录方法一 重构字符串时间复杂度O(N+M),空间复杂度O(N+M)class Solution: def backspaceCompare(self, S: str, T: str) -> bool: def transfer_str(s): res=[] for i in range(len(s)): cur=s[i] if cur !='#':
原创
46阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-21合并两个有序链表(python3)

题目合并两个有序链表题目链接官方题解关键词链表代码记录# Definition for singly-linked list.class ListNode: def __init__(self, val=0, next=None): self.val = val self.next = nextclass Solution: def mergeTwoLists(self, l1: ListNode, l2: ListNode) -> ListNode: import
原创
52阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-707设计链表(python3)

题目设计链表题目链接官方题解关键词单链表,双链表代码记录方法一 单链表class ListNode: def __init__(self,val): self.val=val self.next=Noneclass MyLinkedList: def __init__(self): """ Initialize your data structure here. """ sel
原创
68阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-977有序数组的平方(python3)

题目有序数组的平方题目链接官方题解关键词单调栈代码记录此处记录一下单调栈的写法,与官方题解方法不同。class Solution: def sortedSquares(self, A: List[int]) -> List[int]: stack=[] res=[] for n in A: if not stack: stack.append(n) else: if abs(n)<=abs(
原创
45阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-234回文链表(python3)

题目回文链表题目链接官方题解关键词链表代码记录此解法时间复杂度O(n),空间复杂度O(1)。# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def isPalindrome(self, head: ListNode) -> bo
原创
58阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-328奇偶链表(python3)

题目奇偶链表题目链接官方题解关键词链表代码记录# Definition for singly-linked list.# class ListNode:# def __init__(self, val=0, next=None):# self.val = val# self.next = nextclass Solution: def oddEvenList(self, head: ListNode) -> ListNode:
原创
47阅读
0评论
0点赞
发布博客于 4 月前

leetcode题解记录-116填充每个节点的下一个右侧节点指针(python3)

题目填充每个节点的下一个右侧节点指针题目链接官方题解关键词完美二叉树,层次遍历代码记录方法一 层次遍历"""# Definition for a Node.class Node: def __init__(self, val: int = 0, left: 'Node' = None, right: 'Node' = None, next: 'Node' = None): self.val = val self.left = left
原创
65阅读
0评论
0点赞
发布博客于 4 月前

NLP相关顶会paper list记录

NLP相关顶会 accepted paper list 地址记录。2020年ACL 2020SIGIR 2020ICLR 2020AAAI 2020KDD 2020EMNLP 2020COLING 2020
原创
107阅读
0评论
0点赞
发布博客于 5 月前

python-logging模块踩坑记录-配置不生效问题

https://stackoverflow.com/questions/13839554/how-to-change-filehandle-with-python-logging-on-the-fly-with-different-classes-a
原创
446阅读
0评论
0点赞
发布博客于 5 月前

pytorch踩坑记录-Error: Expected more than 1 value per channel when training

pytorch踩坑记录-Error: Expected more than 1 value per channel when training
原创
119阅读
0评论
0点赞
发布博客于 6 月前

linux窗口管理工具-screen简明教程

screen 是一个用于命令行终端切换的自由软件。用户可以通过该软件同时连接多个本地或远程的命令行会话,并在其间自由切换。其操作非常简洁易懂,这里简要记录一下基本的使用方法
原创
191阅读
1评论
0点赞
发布博客于 6 月前

github-markdown目录自动生成工具(基于linux环境)

https://github.com/ekalinin/github-markdown-toc
原创
72阅读
0评论
0点赞
发布博客于 6 月前

从零开始实现核密度估计(kernel density estimation,KDE)-python实现

问题背景核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。具体原理推导可参考这篇博客。此篇博客侧重于根据理论公式,给出python实现。python工具包推荐seaborn,pandas,scikit-learn中均提供了kde计算及绘图函数,可直接查阅/调用。理论基础核密度估计的核心公式
原创
2879阅读
0评论
2点赞
发布博客于 9 月前

Leetcode-695.最大岛屿面积(DFS 与 BFS 解法,python3)

题目描述给定一个包含了一些 0 和 1 的非空二维数组 grid 。一个 岛屿 是由一些相邻的 1 (代表土地) 构成的组合,这里的「相邻」要求两个 1 必须在水平或者竖直方向上相邻。你可以假设 grid 的四个边缘都被 0(代表水)包围着。找到给定的二维数组中最大的岛屿面积。(如果没有岛屿,则返回面积为 0 。)来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/max-area-of-islandDFS解法思路说明(摘自leetcode)
原创
137阅读
0评论
0点赞
发布博客于 9 月前

python 使用pandas 读取较大csv文件的加速技巧

问题背景基于python将较大的文本文件读取为dataframe时(文本文件可能是csv或者xlsx类型)。直接用pandas对整个文件进行读取的话,会比较耗时。这里提供一个简单的加速方案:分批读取。实现方案需要首先将文件转为可以分批读取的数据类型:csv(’,‘分隔)或者tsv(’\t’分隔)。然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取(此参数用于设定每批读入多少行数据)。一般设置为一个稍大的整数即可明显提速。封装成以下的函数,可以直接调用:def
原创
2946阅读
0评论
0点赞
发布博客于 9 月前

git credential.helper 为不同的项目目录分别储存用户名和密码

问题背景:git 项目 只能使用http方式连接 (比如:公司的gitlab不支持ssh方式。), 不想每次都输入用户名和密码。基于credential.helper (凭证助手)store模式可以 在文件中永久存储用户名和密码,不需重复输入,但是如果直接使用默认配置,不同的项目会调用同一个文件中存储的用户名和密码,这不符合多用户在同一服务器上进行开发的场景。解决方案解决方式比较简单:基于以下命令:git config credential.helper 'store --file .git/.m
原创
425阅读
0评论
0点赞
发布博客于 9 月前

pytorch使用教程-基于自定义 Dataloader中的collate_fn 函数 实现变长数据处理

问题背景想要使用pytorch 框架中的 Dataset 和 Dataloader 类,将变长序列整合为batch数据 (主要是对长短不一的序列进行补齐),通过自定义collate_fn函数,实现对变长数据的处理。主要思路Dataset 主要负责读取单条数据,建立索引方式。Dataloader 负责将数据聚合为batch。应用实例测试环境: python 3.6 ,pytorch 1.2.0数据路径:data路径下存储的是待存储的数据样本。举例:其中的 1.json 样本格式为:定义
原创
1344阅读
0评论
0点赞
发布博客于 9 月前

深度学习500问.pdf

深度学习500问。根据github开源项目的资料整合为pdf。 项目地址: https://github.com/scutan90/DeepLearning-500-questions
pdf
发布资源于 10 月前

程序员必备:彻底弄懂常见的7种中文字符编码(推荐阅读,写的十分清晰易懂)

作为一名NLPer,文件编码/解码是我们经常要面对的问题~墙裂推荐大家阅读一下腾讯出品的这篇知乎文章,写的十分清晰易懂~传送门
转载
141阅读
0评论
0点赞
发布博客于 10 月前

python re 正则匹配 示例

记录一些python正则匹配的实际应用场景示例,持续更新。1. 目标场景: 提取不跟在特定字符后的指定字符示例问题:血氧饱和度提取 输入字符形式类似 “SpO296”或者“SPO296”96 为目标数值,SpO2 中的O2为氧气 。所以问题可以转化为提取连续的数字,数字前的字符不能是SpO 或者SPO.示例代码:input_str='SpO296'import rematch_...
原创
104阅读
0评论
0点赞
发布博客于 10 月前

医学自然语言处理相关资源整理

# Chinese_medical_NLP医疗NLP领域(主要关注中文) 评测数据集 与 论文等相关资源。
原创
3972阅读
0评论
9点赞
发布博客于 11 月前

sklearn 使用软标签进行多标签、多分类训练的一种实现方法

目标场景Multilabel classifcation in sklearn with soft (fuzzy) labels。在sklearn中,使用软标签(one-hot标签:(1,0,0),软标签:(0.8,0.2,0))进行多标签分类问题。解决方案神经网络的训练方式是直接支持使用软标签训练的。对于sklearn中的部分基础机器学习分类模型,无法直接支持软标签训练。一个解决方案...
原创
802阅读
0评论
0点赞
发布博客于 1 年前

python list 求 交集,并集,差集的高效方法

针对python中对两个列表求交集,并集,差集的问题,可以使用较简洁的内置方法解决示例如下。list_1 = [1,2,5,7,9]list_2 = [2,4,6,9]union = list(set(list_1)&set(list_2)) # 交集,[9, 2]intersection = list(set(list_1)|set(list_2)) # 并集,[1, 2, 4,...
原创
1591阅读
0评论
2点赞
发布博客于 1 年前

ubuntu crontab 踩坑实录

Linux crontab是用来定期执行程序的命令。通过crontab -e 可以编辑需要定时执行的命令。这里记录一下在ubuntu上实际使用crontab的几个坑。
原创
181阅读
0评论
1点赞
发布博客于 1 年前

linux 实用命令集合

查看当前文件夹下所有文件大小,以M为单位du -sh ./ -m
原创
132阅读
0评论
0点赞
发布博客于 1 年前

xgboost 与 lightgbm 多分类 与 多标签 任务 python代码实例

https://stackoverflow.com/questions/40916939/xg-boost-for-multilabel-classification
原创
3261阅读
0评论
3点赞
发布博客于 2 年前

pytorch、tensorflow-多gpu显存使用问题(解决gpu 0 显存占满时 使用其他gpu 报错 out of memory问题)

待补充https://github.com/pytorch/pytorch/issues/3477
原创
1507阅读
0评论
0点赞
发布博客于 2 年前

linux磁盘挂载教程

原因:挂载时未格式化,使用的文件系统格式不对linux 挂载时 mount: wrong fs type, bad option, bad superblock on /dev/sdbsudo mkfs -t ext4 /dev/sdbmount /dev/sdb /nlp_data/sudo vim /etc/fstab/dev/sdb /nlp_data ext4 d...
原创
109阅读
0评论
0点赞
发布博客于 2 年前

python Pandas DataFrame 取单行数据保持dataframe格式的方法

python pandas的一个使用技巧。Pandas DataFrame 直接取一行数据会得到Series,如果想让结果保持原dataframe格式,在索引外加 [] 即可。示例如下:import pandas as pdtest_df = pd.DataFrame([[0,'a','b'],[1,'c','d'],[2,'e','f']],columns=['c1','c2','c3...
原创
2246阅读
1评论
1点赞
发布博客于 2 年前

linux系统 三步解决matplotlib图片中文显示问题

网上很多类似的教程,今天亲测了一种相对比较简单的。记录一哈。第一步,下载字体文件网上有很多字体可以下载,我使用的是这个下载地址。下载之后,解压缩,里面的 ttf 后缀文件就是我们需要的字体文件。我把这个文件重命名为英文了,比如chinese.ttf第二步,放置到matplotlib对应目录通过在python的命令行输入以下语句可以获得matplotlib的matplotlibrc文件...
原创
67阅读
3评论
0点赞
发布博客于 2 年前

linux、windows脚本不兼容踩坑记录

windows上写的脚本,直接拷贝到linux系统上运行可能会出现格式不兼容问题。情景还原:在pycharm中远程编辑linux服务器的代码,编写了一个shell脚本,在服务器运行sh脚本时报错:/bin/bash^M: bad interpreter: No such file or directory解决办法:比如文件名为myshell.sh,vim myshell.sh执...
转载
122阅读
0评论
0点赞
发布博客于 2 年前

用于嵌套命名实体识别的多层神经网络模型[NAACL 2018]阅读笔记

论文题目:A Neural Layered Model for Nested Named Entity Recognition论文出处:NAACL 2018论文地址:https://www.aclweb.org/anthology/N18-1131论文概要相比于传统的单层级的NER任务(flat NER),在实际业务中会出现实体嵌套的情况,对应为嵌套NER任务(nested NER)。下...
原创
1288阅读
4评论
0点赞
发布博客于 2 年前

基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记

论文题目:Exploiting Entity BIO Tag Embeddings and Multi-task Learning for Relation Extraction with Imbalanced Data论文出处:ACL 2019论文地址:https://www.aclweb.org/anthology/P19-1130论文概要这篇论文针对关系提取任务,核心创新点有两点,已...
原创
412阅读
0评论
0点赞
发布博客于 2 年前

Graph Convolutional Networks with Argument-Aware Pooling for Event Detection[AAAI 2018]阅读笔记

论文题目:Graph Convolutional Networks with Argument-Aware Pooling for Event Detection论文出处:AAAI 2018论文地址:https://ix.cs.uoregon.edu/~thien/pubs/graphConv.pdf论文概要该论文提出一个基于句法依存树的图卷积(Graph Convolutional Ne...
原创
1207阅读
0评论
0点赞
发布博客于 2 年前

将开放标记从数十扩展到数千:从产品标题中提取属性值[ACL 2019]阅读笔记

论文题目:Scaling Up Open Tagging from Tens to Thousands: Comprehension Empowered Attribute Value Extraction from Product Title论文出处: ACL 2019论文地址:https://www.aclweb.org/anthology/P19-1514论文概述这篇文章出自阿里巴巴...
原创
1111阅读
0评论
0点赞
发布博客于 2 年前

OpenTag: Open Attribute Value Extraction from Product Profiles[KDD 2018]阅读笔记

论文名称:OpenTag: Open Attribute Value Extraction from Product Profiles论文出处:KDD 2018论文地址:https://arxiv.org/pdf/1806.01264.pdf论文要点文章基于产品说明书数据。将属性值抽取转化为序列标注问题处理。基本模型: bi-lstm + attention + CRF采用主动学...
原创
552阅读
0评论
0点赞
发布博客于 2 年前

Reliability-aware Dynamic Feature Composition for Name Tagging [ACL 2019] 阅读笔记

论文题目:Reliability-aware Dynamic Feature Composition for Name Tagging论文出处:ACL 2019论文地址:http://nlp.cs.rpi.edu/paper/featurecomposition2019.pdf源码:https://github.com/limteng-rpi/neural_name_tagging
原创
281阅读
3评论
1点赞
发布博客于 2 年前

Chinese NER Using Lattice LSTM [ACL 2018] 阅读笔记

论文题目:Chinese NER Using Lattice LSTM论文出处:ACL 2018论文地址: https://arxiv.org/abs/1805.02023源码: https://github.com/jiesutd/LatticeLSTM概要论文提出了一种适用于中文NER任务的Lattice-Lstm结构。主要思想,综合利用字符级和单词级信息。如上图所示。在每一个字...
原创
623阅读
0评论
0点赞
发布博客于 2 年前

pytorch(1.1.0) StepLR 中 get_lr()方法的一个bug

import torchfrom torch.optim.lr_scheduler import StepLRmodel = torch.nn.Linear(5,10)optim = torch.optim.SGD(model.parameters(), lr = 1)scheduler = StepLR(optim,step_size=5 , gamma=0.1)model.train...
原创
1880阅读
5评论
0点赞
发布博客于 2 年前

用于关系提取的基于注意力机制的双向LSTM网络[ACL 2016]

论文题目:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification论文出处:ACL2016论文地址:https://www.aclweb.org/anthology/P16-2034前言本篇文章是早期关系提取任务神经网络方法的经典模型。天池比赛-瑞金糖尿病文献数...
原创
1103阅读
0评论
1点赞
发布博客于 2 年前

pycharm 进行远程服务器代码的编写与调试

https://www.cnblogs.com/superjn/p/8624605.html
转载
80阅读
0评论
0点赞
发布博客于 2 年前

Linux 技巧:让进程在后台运行更可靠的几种方法

Linux 技巧:让进程在后台运行更可靠的几种方法https://www.ibm.com/developerworks/cn/linux/l-cn-nohup/index.html常用:nohup command_to_run >fine_name 2>&1 &
转载
138阅读
0评论
0点赞
发布博客于 2 年前

pip使用国内镜像源

使用pip安装某些库可能速度较慢,可以考虑使用国内镜像,常见pip国内的一些镜像如下:阿里云 http://mirrors.aliyun.com/pypi/simple/  中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/  豆瓣(douban) http://pypi.douban.com/simple/  清华大学 https://pyp...
转载
4057阅读
0评论
3点赞
发布博客于 2 年前

CS224n(2019):Assignment 3 参考答案

CS224n : Assignment 3 参考答案本文为cs224n课程(winter,2019)的 assignment 3 中的代码部分和问答部分参考答案。如有疑问或者错误之处,欢迎交流。代码部分答案见 github地址问答部分答案:2.(a)StackBufferNew dependencyTransition[ROOT][I,parsed,this,...
原创
3021阅读
0评论
1点赞
发布博客于 2 年前

CS224n(2019):Assignment2 参考答案

CS224n : Assignment2 参考答案本文为cs224n课程的 assignment2 中的公式推导部分参考答案。如有疑问或者错误之处,欢迎交流。Assignment2 原文Assignment2 编码部分参考答案Variables notationAttention: All the variables’ dimensions here are consistent w...
原创
6066阅读
9评论
13点赞
发布博客于 2 年前

CS224n课程资源-winter,2019

CS224n: Natural Language Processing with Deep Learning自然语言处理领域的经典课程。2019,winter. 最新一期课程。课程资源列表官方网址课程官方网址(官方网站包含课程ppt,笔记,推荐阅读资料,作业及课程项目等参考材料)课程视频720p,包含原版英文字幕及中文字幕(机器翻译)中文字幕为机器翻译版本,质量有限,建议使用英文...
原创
738阅读
1评论
0点赞
发布博客于 2 年前

numpy 中 newaxis的用法说明(增加 数组/矩阵 维度)

简而言之,newaxis用于在使用一次时将现有数组的维度增加一个维度。即1维数组转为2维,2维数组转为3维,…等等。下面的图示很清楚地展示了newaxis的用法及作用:建议大家阅读Stack Overflow上的解答,更全面:https://stackoverflow.com/questions/29241056/how-does-numpy-newaxis-work-and-wh...
原创
303阅读
0评论
0点赞
发布博客于 2 年前

IOU(交并比)计算的python3实现

IOU定义在目标检测的评价体系中,有一个参数叫做 IoU ,简单来讲就是模型产生的目标窗口和原来标记窗口的交叠率。具体我们可以简单的理解为: 即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集,即为检测的准确率 IoU :根据定义,IOU的取值范围是[0,1].python 代码实现# encoding: utf-8def compute_I...
原创
4622阅读
0评论
3点赞
发布博客于 2 年前

softmax 的python3实现 - 优化版本

Softmax 函数定义Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在之间,并且所有元素的和为1。该函数的形式通常按下面的式子给出:其中, j = 1, …, Ksoftmax 的python3实现import numpy as npdef softmax(x): """Co...
原创
632阅读
0评论
2点赞
发布博客于 2 年前

Python拷贝(深拷贝deepcopy与浅拷贝copy区别)

Python中的对象之间赋值时是按引用传递的,如果需要拷贝对象,需要使用标准库中的copy模块。1、copy.copy 浅拷贝 只拷贝父对象,不会拷贝对象的内部的子对象。2、copy.deepcopy 深拷贝 拷贝对象及其子对象&amp;gt;&amp;gt;&amp;gt;import copy&amp;gt;&amp;gt;&amp;gt; a = [1,2,3,4,['a','b']] #原始对象&amp;gt;&amp;g
转载
139阅读
0评论
0点赞
发布博客于 2 年前

剑指offer(二叉搜索树的第k个结点)-python2实现及解析

题目描述:给定一棵二叉搜索树,请找出其中的第k小的结点。例如, (5,3,7,2,4,6,8) 中,按结点数值大小顺序第三小结点的值为4。题目来源:牛客网代码实现(python2)# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# ...
原创
418阅读
0评论
0点赞
发布博客于 2 年前

python–*args与**kwargs总结

https://zhuanlan.zhihu.com/p/28491913
转载
43阅读
0评论
0点赞
发布博客于 2 年前

python引用可变变量与非可变变量的区别

概念可变对象与不可变对象的区别在于对象本身是否可变。python内置的一些类型中可变对象:list dict set不可变对象:tuple string int float bool如果两个变量同时指向一个地址:扩展举例:节选,修改自:https://zhuanlan.zhihu.com/p/34395671...
原创
202阅读
0评论
0点赞
发布博客于 2 年前

python2 input,raw_input与 python3 input区别

原文链接:https://www.cnblogs.com/gengcx/p/6707024.htmlPython2.x中,input()函数让我们明确我们输入的是数字格式还是字符格式,就是我们自己要知道我们想要的是什么,数字格式直接输入,字符格式必须加上单引号或者双引号,以确定我们输入的是字符串。raw_input()函数无论用户输入什么,都默认为字符格式在Python3中是将Pytho...
转载
83阅读
0评论
0点赞
发布博客于 2 年前

常用决策树算法总结

算法思想决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。总结来说:决策树模型核心是下面几部分:结点和有向边组...
转载
2193阅读
0评论
1点赞
发布博客于 2 年前

机器学习优化算法 (Optimization algorithms)总结

文章目录批量梯度下降、随机梯度下降与mini-batch随机梯度下降批量梯度下降(BGD)随机梯度下降(SGD)mini-batch 随机梯度下降MomentumRMSpropAdam批量梯度下降、随机梯度下降与mini-batch随机梯度下降在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。下面...
转载
1324阅读
0评论
2点赞
发布博客于 2 年前

机器学习损失函数梳理

没有一个适合所有机器学习算法的损失函数。针对特定问题选择损失函数涉及到许多因素,比如所选机器学习算法的类型、是否易于计算导数以及数据集中异常值所占比例。文章目录均方误差/平方损失/L2 损失(MSE)平均绝对误差/L1 损失平均偏差误差(mean bias error)Huber损失函数Hinge Loss/多分类 SVM 损失交叉熵损失/负对数似然Log-Cosh损失Focal loss均方...
原创
410阅读
0评论
1点赞
发布博客于 2 年前

剑指offer-[编程题]不用加减乘除做加法(python2实现及解析)

题目来源:牛客网题目描述:写一个函数,求两个整数之和,要求在函数体内不得使用+、-、*、/四则运算符号。参考答案:class Solution: def Add(self, a, b): while(b): a,b = (a^b) &amp; 0xFFFFFFFF,((a&amp;b)&lt;&lt;1) &amp; 0...
原创
2257阅读
2评论
16点赞
发布博客于 2 年前

原码, 反码, 补码 详解

https://www.cnblogs.com/zhangziqiu/archive/2011/03/30/ComputerCode.html
转载
466阅读
0评论
0点赞
发布博客于 2 年前

vim-使用技巧

vim替换^m字符在Linux下使用vi来查看一些在Windows下创建的文本文件,有时会发现在行尾有一些“^M”.下面这个方法亲测可用.:%s/^M/\r/g # 将^M替换成回车。注意:这里的“^M”要使用“CTRL-V CTRL-M”生成,而不是直接键入“^M&quot;原文链接: https://blog.csdn.net/wulantian/article/details/536716...
转载
67阅读
0评论
1点赞
发布博客于 3 年前

python str-unicode 编码转换问题

http://in355hz.iteye.com/blog/1860787
转载
3041阅读
0评论
0点赞
发布博客于 3 年前

HIVE SQL实用操作技巧

展开map类型为(key,value)select explode(map_column) as (key_name,value_name) from table_name
原创
462阅读
2评论
0点赞
发布博客于 3 年前

交叉熵信息学解释及其在机器学习中的应用

待填充
原创
430阅读
0评论
0点赞
发布博客于 3 年前

Git - 操作/注意事项汇总(持续更新)

远程仓库查看与删除查看当前远程仓库 git remote -v删除指定远程仓库 git remote rm origin 注: 远程仓库名一般为origin,也可能为其他名称
原创
163阅读
0评论
0点赞
发布博客于 3 年前

字符串匹配KMP算法的基本原理及python实现

KMP算法是字符串匹配问题中非常经典的算法。最近查找了很多相关资料,直到看到下面这两篇博客,终于理解了KMP的基本原理。 KMP算法的核心即是计算字符串M每一个位置之前的字符串的前缀和后缀公共部分的最大长度。获得M每一个位置的最大公共长度之后,就可以利用该最大公共长度快速和字符串S比较。当每次比较到两个字符串的字符不同时,我们就可以根据最大公共长度将字符串M向右移动,接着继续比较下一个位置。 ...
原创
302阅读
3评论
1点赞
发布博客于 3 年前

中心极限定理及例题解析(卡车超载问题)

辛钦中心极限定理Central Limit Theorem:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。 以公式形式表达为: 由此可推导出: 例题:每箱货物的重量服从均值为50KG,标准差为3KG的正态分布。卡车载重量为5000KG,在保证不超载概率大于0.84的前提下...
原创
11748阅读
0评论
5点赞
发布博客于 3 年前

python初始化list列表(1维、2维)-注意事项

原文出处:http://www.cnblogs.com/zqifa/python初始化list列表(1维、2维)1.初始化递增的list:list1 = range(10) print list1 [0,1,2,…,9]2.初始化每项为0的一维数组:list2 = [0] * 5 print list2 [0,0,0,0,0]3.初始化固定值的一维数组:...
转载
1197阅读
0评论
0点赞
发布博客于 3 年前

Yarn中的关键组件并简述各关键组件内部的交互原理( 招商银行信用卡中心2018秋招数据方向笔试题-牛客网)

待填充
转载
950阅读
0评论
1点赞
发布博客于 3 年前

python 类 - 带括号(实例化)与不带括号(别名)赋值的区别

标题里的描述可能不够准确,以下面这个节点类做说明。class ListNode: def __init__(self, x): self.val = x self.next = None不带括号的赋值对于: a=ListNode 相当于a指向了ListNode类,所以a与ListNode类相等。(这种描述可能不够准确,欢迎大神指正!)...
原创
15704阅读
3评论
10点赞
发布博客于 3 年前

python- 变量区变量保存与加载

推荐一个很简单又好用的保存python变量区变量的模块:dill https://pypi.org/project/dill/ 使用举例,保存变量区变量到文件:import dilldill.dump_session('file_name.pkl')加载文件内容到变量区dill.load_session('file_name.pkl')...
原创
4751阅读
3评论
3点赞
发布博客于 3 年前

Pig脚本路径匹配规则-Shell glob pattern

对症下药真的很重要。 今天在写pig脚本时有一个简单的需求,需要批量输入某路径下部分指定路径下的文件。 Pig脚本中的路径变量应采用shell glob pattern匹配。 参考: http://teaching.idallen.com/cst8207/13w/notes/190_glob_patterns.html 而Pig 语言中内置的MATCH函数则采用的是Java正则匹配规则。...
原创
300阅读
0评论
0点赞
发布博客于 3 年前