自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

约定的博客

算法与nlp追随者

  • 博客(309)
  • 资源 (17)
  • 收藏
  • 关注

原创 词汇挖掘与实体识别(未完)

文章目录1 概述2 词汇挖掘2.1 关键词提取2.1.1 基于特征统计2.1.2 基于主题模型2.1.3 Text-Rank算法提取2.2 同义词挖掘2.2.1 同义词类型2.2.2 挖掘2.3 缩略词挖掘2.4 新词挖掘3 实体识别(NER)3.1 基于概率图模型3.2 基于深度学习1 概述实体:是文本中的一些词汇或者短语。例如清华大学、李白。但有些词汇不是实体。例如鲜艳的,守株待兔。具体措施:挖掘尽可能多高质量的词汇,筛选目标知识图谱中的实体。2 词汇挖掘2.1 关键词提取2.1.1 基于

2021-03-17 08:56:52 627

原创 知识图谱存储与搜索

本系列是学习七月算法知识图谱课程的笔记知识图谱存储是一个技术活。根据数据量以及关系复杂程度可能会选择不同的介质。课程里面直接用了neo4j。讲了neo4j安装、语法、建库、添加数据、导入数据、查询数据。最后讲了在应用中的一些高级查询。例如朋友圈检测、欺诈团检测。...

2021-03-17 08:21:14 198

原创 知识图谱基础

本系列是学习七月算法知识图谱课程的笔记。感觉自己完全就是一个托儿。前面七月算法机器学习,七月算法深度学习的笔记。现在又来了知识图谱课程的笔记。文章目录1 why知识图谱2 知识图谱前世今生3 知识图谱相关技术4 知识图谱应用案例1 why知识图谱没有知识图谱,计算机看到一个文字的时候只能是一个文字。例如看到“Magdalena Carmen Frida Kahlo y Calderón”,不能知道其中文名称、简称、相关作品。我们想要达到目标:things not strings如果做到呢?深度学习

2021-03-16 12:56:46 230

原创 第十章 条件随机场CRF

文章目录1 条件随机场定义1.1 马尔科夫随机场1.1.1 用图模型表示概率1.1.2 局部马尔科夫性1.2 马尔科夫随机场的因子分解1 条件随机场定义1.1 马尔科夫随机场1.1.1 用图模型表示概率图G=(V,E),V表示顶点集合,E表示边的集合。概率图模型表示用图表示概率的分布。可以用无向图G表示联合概率分布P(Y)。Y一定是一个矢量。顶点v∈Vv \in Vv∈V表示一个随机变量YvY_vYv​,Y=(Yv)v∈VY = (Y_v)_{v \in V}Y=(Yv​)v∈V​。边e∈E

2021-03-13 08:05:30 240

转载 N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑

转载自时空霹雳         在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,本文将介绍众多算法中的佼佼者:古德-图灵(Good-Tu

2021-03-10 06:49:03 1557

转载 朴素贝叶斯

转载自寒老师的文章文章目录1引言2 贝叶斯公式3 用机器学习的视角理解贝叶斯公式4 垃圾邮件识别5 分词6 条件独立假设7 朴素贝叶斯(Naive Bayes),“Naive”在何处?8 简单高效9 处理重复语言的三种方式10 去除停用词与选择关键词11 浅谈平滑技术12 内容总结13 为什么不直接匹配关键词14 实际工程的tricks15 贝叶斯方法的思维方式16 贝叶斯方法的应用1引言2 贝叶斯公式3 用机器学习的视角理解贝叶斯公式4 垃圾邮件识别5 分词6 条件独立假设7 朴素贝叶斯(

2021-03-03 08:51:39 389

原创 第八课 RNN条件生成与Attention机制

文章目录1 RNN条件生成2 机器翻译3 Attention4 图像生成文本1 RNN条件生成RNN可以解决的问题有多种,根据输入输出个数不同分为:1 一对多:图像描述2 多对一:文本分类3 多对多:实时多对多:输入法、视频解说输入完成再多对多:机器翻译条件生成问题:P(y|x)2 机器翻译3 Attention4 图像生成文本...

2021-03-01 08:17:47 762 1

原创 第七课 循环神经网络与自然语言处理

文章目录1 循环神经网络1.1 场景与多种应用1.2 RNN网络结构1.2.1为什么需要RNN1.2.2 RNN 结构1.3 多种RNN1.4 BPTT算法1.5 生成模型与图像描述2 LSTM1 循环神经网络1.1 场景与多种应用1 模仿论文生成2 模仿linux内核编写代码3 模仿小四写论文4 机器翻译5 image to text 看图说话1.2 RNN网络结构1.2.1为什么需要RNN传统神经网络输入和输出是互相独立的。我是中国人,我的母语是____。这里完形填空的结果是与前面

2021-02-28 16:12:22 491

原创 第六课 从词向量到NLP分类问题

文章目录1 nlp的常见任务2 词向量表示1 nlp的常见任务分词词性标注自动摘要指代消解机器翻译主题识别文本分类2 词向量表示文本不同于图片与视频。图片与视频天然是以二进制形式表示的,计算机能够处理。文本是人造的,只有人可以懂,怎么让计算机读懂,需要使用词向量表示方式要能够解决:1 需要保证词的相似性例如 frog toad rana 相似2 向量空间分布的相似性英语中的1 2 3 4 要和西班牙语的 1 2 3 4 分布相似3 向量空间子结构向量是可以用于运算的.

2021-02-26 23:11:11 744 1

原创 深度学习03-CNN 应用

文章目录1 概述2 图片识别+定位1 概述CNN主要任务包含物体识别+定位、物体识别、图像分割。图片识别:图片分类,假设图片中是一个主要对象。图片识别+定位:可以用矩形框,画出图片中的物体。物体识别:实际情况中一个图片是包含多个对象的。用矩形框标出所有物体。图像分割:在物体识别的基础上,检测出物体边缘。2 图片识别+定位图片识别:输入:图片;输出:类别标签;评价标准:准确率图片定位:输入:图片;输出:物体边界框(x,y,w,h);评价标准:交并准则(x,y)是左上角的点,w是宽度,h是

2021-02-25 17:43:33 2118

原创 第九章 隐马尔科夫模型HMM

文章目录1 隐马尔科夫模型定义2 概率计算算法3 学习算法4 预测算法1 隐马尔科夫模型定义隐马尔科夫模型是一个seq2seq模型。例如词性标注。时间序列t1t2t3状态序列代词动词名词观察序列我爱机器学习能够看到的,例如词语是观察序列。看不到的部分是状态序列,例如词性。状态集合:Q=q1,q2,...qNQ={q_1,q_2,...q_N}Q=q1​,q2​,...qN​,∣Q∣=N|Q|=N∣Q∣=N观察集合:V=v1,v2,...vMV={v_

2021-02-05 09:34:22 316

原创 第八章xgboost/lightGBM

文章目录1 xgboost1.1 基本用法1.1.1 通用参数1.1.2 集成参数1.1.3 任务参数1.2 例子1 xgboost1.1 基本用法xgboost有三类参数:通用参数、集成参数和任务参数。1.1.1 通用参数booster:可选值gbree、gblinear。默认值是gbree。这是指定用哪种基模型。silent,可选值0,1。默认是0,表示有输出。nthread 线程数1.1.2 集成参数eta 学习率。默认值0.3,范围[0,1]。gamma [default=0,

2021-02-02 09:25:47 333

原创 第七章 scikit-learn与机器学习实战

文章目录1 scikit-learn2 一个项目实战1 scikit-learn导航页与算法指南API:数据预处理Preprocessing and Normalization,特征抽取Feature Extraction,特征选择Feature Selection,各种模型:Generalized linear models (GLM) for regression、Naive Bayes,Support Vector Machines、Decision Trees、Clustering,模型调优与

2021-01-30 23:37:34 441

原创 第六课 多算法组合与模型调优

本系列是七月算法机器学习课程笔记文章目录1 前序工作流程1.1 数据处理1.2 特征工程1.3 模型选择1.4 交叉验证1.5 寻找最佳超参数2 模型优化2.1 模型状态2.2 权重分析1 前序工作流程1.1 数据处理1.2 特征工程这两部分在第五课已经说明了。1.3 模型选择在sklearn中有关于算法选择的路径图。但也不是绝对的。模型选择有两种含义。第一种是:选择不同算法。当拿到一个问题先看属于这4种类型中的哪一种:分类?回归?聚类?降维?例如搜索结果排序,看上去不是上面的任何一种

2021-01-26 09:04:25 726

原创 第五课 机器学习中的特征工程

文章目录1 特征工程与意义2 数据与特征处理2.1数据采集2.2 数据清洗2.3 数据采样2.4 特征处理2.4.1 数值型2.4.2 类别型1 特征工程与意义特征工程做的事情是从数据中抽取出来的,对结果预测有用的信息。特征工程是使用专业背景知识和机器学习技巧处理数据,使得特征能在机器学习算法上发挥更大的作用。要提升机器学习的效果可以有三个途径:1 选择一个合适的模型,模型越简单越好2 编码技能和机器学习技能,能够通过调参提升效果。这个提升效果大概在千分之几的级别。3 了解业务,通过抽取特征提

2021-01-21 11:08:37 552

原创 第三课 SVM

本系列是七月算法机器学习课程笔记文章目录1 问题2 key idea 13 key idea 24 key idea 3学习SVM不要先看数学公式,这样把SVM的精华都丢掉了。学习SVM学习作者是如何构建出这样一个算法的过程。1 问题无论线性分类、逻辑回归、决策树都是要找到一个决策边界。但是这个决策边界什么时候最好呢?就像图中这样,答案应该是线条3最好,它的泛化能力更强。那怎么找到这样的一条线呢?2 key idea 1目标是要找到最宽的那条街道(widest street way)。假

2021-01-18 08:16:11 116

原创 第二课 决策树与随机森林

本系列是七月算法机器学习课程笔记文章目录1 从LR到决策树1.1 决策树1.2 决策树的终止条件1.3 决策树划分依据2 回归树3 从决策树到随机森林1 从LR到决策树1.1 决策树决策树出现是模仿了人类自己做判断的一个过程。例如一个相亲案例。要考查的数据维度可能有:身高、财富积累、长相、是不是潜力股、品德如何。根据逻辑回归的决策过程是下图这样。计算出的概率高,就去相亲。但是人做决策可能是下面这样。例如年龄>30,不见。年龄<30,长得丑不见。这样的决策过程,简单,逻辑清晰,可

2021-01-14 09:40:55 549 1

原创 第一课 回归问题与应用

1 不同类型的学习机器学习:监督学习、无监督学习、强化学习按照问题类型分:聚类问题:相似用户分析、新闻聚类分类问题(选择题) 情感分类、垃圾邮件、图像内容与识别回归(回答类问题) 房价、票房值、强化学习:研究如何根据环境而行动2 基本术语与概念数据集:训练集、测试集样本=示例=样例特征 属性、属性值属性空间 样本空间特征向量标记 label 输出空间3 线性回归模型3.1 什么是线性回归有监督 学习,输出是连续值假定输入与输出之间是线性关系:f:x->y例

2021-01-12 08:53:43 566

原创 140. Word Break II

文章目录1 题目理解2 回溯+记忆化1 题目理解140与130的区别是,当字符串可分的时候,要求返回具体的分割字符串。2 回溯+记忆化对于字符串s,如果前面一部分是单词列表中的词,则拆分出这个单词,右边的继续分割。分割过程中,对起始下标i,已经分割过的,用map缓存。使用字典树也可以加快搜索速度。class Solution { private Trie trie; private List<String> result; public List<S

2021-01-02 23:29:20 205 2

原创 1048. Longest String Chain

文章目录1题目理解2 动态规划1题目理解输入:字符串数组words,字符串只包含小写字母规则:对于word1和word2,如果在word1中任何一个位置添加一个字符能够得到word2,那么可以称word1为word2的前身。词链是单词 [word_1, word_2, …, word_k] 组成的序列,k >= 1,其中 word_1 是 word_2 的前身,word_2 是 word_3 的前身,依此类推。输出:从words中选择词组成词链,词链可能的最长的长度。Example 1:I

2021-01-02 22:50:11 244

原创 673. Number of Longest Increasing Subsequence

文章目录1 题目理解2 动态规划1 题目理解Given an integer array nums, return the number of longest increasing subsequences.Notice that the sequence has to be strictly increasing.输入:整数数组int[] nums输出:最长递增子序列的个数规则:子序列是指从原数组中找出若干元素组成新的数组。这些元素不一定是下标相邻的,但是元素前后顺序不能变。递增子序列就是新的

2021-01-02 17:23:07 179

原创 300. Longest Increasing Subsequence

文章目录1 题目理解2 动态规划3 二分+贪心1 题目理解Given an integer array nums, return the length of the longest strictly increasing subsequence.A subsequence is a sequence that can be derived from an array by deleting some or no elements without changing the order of the re

2021-01-02 08:34:54 275

原创 790. Domino and Tromino Tiling

文章目录1 题目理解2 动态规划1 题目理解We have two types of tiles: a 2x1 domino shape, and an “L” tromino shape. These shapes may be rotated.XX <- dominoXX <- “L” trominoXGiven N, how many ways are there to tile a 2 x N board? Return your answer modulo 10^9 +

2020-12-31 11:49:48 323

原创 740. Delete and Earn

1 题目Given an array nums of integers, you can perform operations on the array.In each operation, you pick any nums[i] and delete it to earn nums[i] points. After, you must delete every element equal to nums[i] - 1 or nums[i] + 1.You start with 0 points.

2020-12-31 00:34:40 177

原创 309. Best Time to Buy and Sell Stock with Cooldown

1 题目理解Say you have an array for which the ith element is the price of a given stock on day i.Design an algorithm to find the maximum profit. You may complete as many transactions as you like (ie, buy one and sell one share of the stock multiple times) wi

2020-12-31 00:11:40 151

原创 120. Triangle

文章目录1 题目理解2 解题2.1 动态规划2.2 优化空间2.3进一步优化空间1 题目理解Given a triangle array, return the minimum path sum from top to bottom.For each step, you may move to an adjacent number on the row below.输入:一个三角形数组List<List> triangle输出:从顶层走到底层最小路径和规则:每次只能从上一层走到下一层

2020-12-30 07:23:48 247

原创 63. Unique Paths II and 64. Minimum Path Sum

文章目录1 63 Unique Paths II1.1 题目描述1.2 动态规划解决2 64. Minimum Path Sum2.1 题目理解2.2 动态规划这一遍刷dp的题目就很轻松了。1 63 Unique Paths II1.1 题目描述A robot is located at the top-left corner of a m x n grid (marked ‘Start’ in the diagram below).The robot can only move either d

2020-12-29 23:39:16 315

原创 303. Range Sum Query - Immutable

Given an integer array nums, find the sum of the elements between indices i and j (i ≤ j), inclusive.Implement the NumArray class:NumArray(int[] nums) Initializes the object with the integer array nums.int sumRange(int i, int j) Return the sum of the el

2020-12-29 12:46:32 102

原创 1218. 最长定差子序列

文章目录1 题目理解2 开始思考1 题目理解给你一个整数数组 arr 和一个整数 difference,请你找出并返回 arr 中最长等差子序列的长度,该子序列中相邻元素之间的差等于 difference 。输入:整数数组arr, 整数difference输出:最长等差子序列的长度规则:这个等差子序列相邻元素的差等于difference示例 1:输入:arr = [1,2,3,4], difference = 1输出:4解释:最长的等差子序列是 [1,2,3,4]。示例 2:输入:ar

2020-12-29 06:56:01 393

原创 315. Count of Smaller Numbers After Self

文章目录1 题目理解2 暴力解法3 分治法1 题目理解输入:int[] nums输出:计数的数组int[] counts规则:counts[i]表示nums中下标大于i,值小于nums[i]的个数Example 1:Input: nums = [5,2,6,1]Output: [2,1,1,0]Explanation:To the right of 5 there are 2 smaller elements (2 and 1).To the right of 2 there is o

2020-12-25 23:40:44 422

原创 842. Split Array into Fibonacci Sequence

文章目录1 题目理解2 回溯1 题目理解输入:一个数字字符串S。例如S=“123456579”。规则:我们可以把这个字符串分割为菲波那切数列,例如:[123, 456, 579]。一个菲波那切数列需要符合以下条件:1 0<=F[i]<=231−10 <= F[i] <= 2^31 - 10<=F[i]<=231−1,也就是正整数2 F[i] + F[i+1] = F[i+2] for all 0 <= i < F.length - 2.3 在切

2020-12-24 08:52:09 133

原创 241. Different Ways to Add Parentheses

文章目录1 题目理解2 分治法1 题目理解输入:字符串input,包含数字和操作符规则:给input的不同位置加括号,使得input可以得到不同的计算结果。输出:返回可能的计算结果Example 1:Input: “2-1-1”Output: [0, 2]Explanation:((2-1)-1) = 0(2-(1-1)) = 22 分治法文章参考力扣官网。对于形如 x op y 的运算式而言,它的结果取决于 x和y结果的组合数。而 x和y又别分可以写成 x op y 这样的运算

2020-12-23 22:39:13 163

原创 131. Palindrome Partitioning

文章目录1 题目理解2 回溯3 动态规划1 题目理解输入:字符串s规则:将字符串s分割,分割后每一个部分都是一个回文串。输出:所有的分割方式Example 1:Input: s = “aab”Output: [[“a”,“a”,“b”],[“aa”,“b”]]Example 2:Input: s = “a”Output: [[“a”]]2 回溯例如s=‘aab’处理第0个字符a:a是回文吗?是继续处理(第1个字符)     &nb

2020-12-23 16:40:14 229

原创 93. Restore IP Addresses

文章目录1 题目理解2 回溯1 题目理解输入:字符串s输出:可能的ip地址规则:一个有效的ip地市是一连串数字,数字范围在0到255,每个数字不能有前导0。例如"0.1.2.201" and "192.168.1.1"是有效ip地址。"0.011.255.245"不是有效地址。“192.168.1.312” and "192.168@1.1"也不是有效地址。Example 1:Input: s = “25525511135”Output: [“255.255.11.135”,“255.255.

2020-12-23 14:31:31 151

原创 698. Partition to K Equal Sum Subsets

文章目录1 理解题目2 分析2.1进一步优化2.2 根据花花酱解答1 理解题目Given an array of integers nums and a positive integer k, find whether it’s possible to divide this array into k non-empty subsets whose sums are all equal.输入:一个int数组nums,一个int k规则:将nums分成k个子数组,每个子数组的和相等输出:true:如

2020-12-23 10:34:47 259

原创 752. Open the Lock

文章目录1 题目理解2 BFS1 题目理解一个钟表有4个槽,每个槽可以停在0-9,10个状态。钟表每个槽的轮子可以转,例如可以从0转到9,也可以从0转到1。钟表的起始状态是"0000"。每个数字代表一个槽的状态。输入:字符串数组deadends,表示不能死亡状态,进入这个状态钟表就被锁住了,不能动了。输入字符串target表示想要达到的状态。输出:到达最终状态的最少需要多少步。如果不能达到则为-1。规则:每一步,钟表只能转动一个槽,只能转一下,例子:Input: deadends = [“0

2020-12-19 14:18:54 163 1

原创 126. Word Ladder II

文章目录1 题目理解2 BFS1 题目理解题目要求和127是一样的。返回值不一样。返回值要求把最短路径的,具体路径输出。Input:beginWord = “hit”,endWord = “cog”,wordList = [“hot”,“dot”,“dog”,“lot”,“log”,“cog”]Output:[[“hit”,“hot”,“dot”,“dog”,“cog”],[“hit”,“hot”,“lot”,“log”,“cog”]]2 BFS因为要返回具体的路径。需要修改的地方

2020-12-19 09:14:53 134 1

原创 127. Word Ladder

文章目录1 题目理解2 BFS1 题目理解给定两个单词(beginWord 和 endWord)和一个字典,找到从 beginWord 到 endWord 的最短转换序列的长度。转换需遵循如下规则:每次转换只能改变一个字母。转换过程中的中间单词必须是字典中的单词。说明:如果不存在这样的转换序列,返回 0。所有单词具有相同的长度。所有单词只由小写字母组成。字典中不存在重复的单词。你可以假设 beginWord 和 endWord 是非空的,且二者不相同。输入:两个单词:beginWord

2020-12-19 07:01:24 257 2

原创 79. Word Search

文章目录1题目理解2 回溯1题目理解Given an m x n board and a word, find if the word exists in the grid.The word can be constructed from letters of sequentially adjacent cells, where “adjacent” cells are horizontally or vertically neighboring. The same letter cell may n

2020-12-18 15:33:22 381

原创 51. N-Queens

文章目录1 题目理解2 回溯2.1 直观解法2.2 按行遍历1 题目理解The n-queens puzzle is the problem of placing n queens on an n x n chessboard such that no two queens attack each other.Given an integer n, return all distinct solutions to the n-queens puzzle.Each solution contains

2020-12-18 14:41:53 169

最全的全国手机号码段归属地数据库(含excel共360569条记录)

包含sql脚本和excel文件。根据手机号的前7位,查询手机号的归属地。

2019-09-12

java面试题汇总,自己总结的

自己平时总结的java面试题,对于面试者或许有用

2011-03-16

js浮动窗口,鼠标点击后浮动效果

一个超级实用的js浮动窗口,适合企业级的应用

2011-03-16

正则表达式学习资料(初学者)

超级有用的正则表达式学习笔记,适合初学者!

2011-03-16

Flash 实现批量上传功能

利用Flash,在java中嵌入,实现批量上传文件的功能

2011-02-16

dtree 例子 学习笔记

dtree的一些简单例子,实现了dtree的基本功能

2011-02-16

jqury 学习资料

jqury的学习资料,对初学者非常有用,希望对jqury的朋友有用

2011-02-15

cognos 资料安装部署

cognos 安装部署和基本学习资料,对初学者还是有非常大的作用,希望对cognos的朋友有用

2011-02-15

强悍的jquery弹出例子.rar

强悍的jquery弹出例子,非原创,如果侵犯什么什么权,请发邮件到cxy510110@163.com。本人将尽快删除。目的只是为了分享。

2009-12-09

extjs中的多选列表

extjs中的多选列表,extjs中没有实现多选列表。这是别人作的封装。我找到的。

2008-09-06

JBPM学习资料 员工报销例子

详细介绍jbpm的一些知识,包含一个员工报销例子

2008-08-26

extjs2-2

extjs的开发包,包括例子

2008-08-22

barcode4j

一个要实现条形码打印的java 开发包。特别方便。我在网上找了近半年,才得到的。希望想实现条形码打印的朋友能少走弯路。这个包特别好。

2008-08-20

ext中文手册

ext中文手册,里面是一些介绍ext控件的资料

2008-08-06

java笔记

学习java的笔记,hope can help you

2008-08-06

tomcat最新版

tomcat的最新版本,可作为应用服务器

2008-08-06

vss软件

用于连接服务器上传,下载内容

2008-08-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除