自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 自然语言处理学习笔记十三(Deep Learing 与 NLP )

一、 传统方法的局限性 1.1 数据稀疏 由于语言是离散的符号系统,每个字符与单词都是离散型随机变量。任何机器学习模型只接受向量,将文本转换成向量,表示为元素为0 1 的二进制向量,然后不同单词的相似句子却是不同的向量,现实中有无数个单词,从而会有严重的数据稀疏问题。 1.2 特征模板 为了建模语言的复合性,传统自然语言处理依赖于手工制定的特征模板,这些模板也是各种单词的组合,组合太多。同样也会带来数据稀疏的问题。 ...

2021-11-17 14:07:26 931

原创 自然语言处理学习笔记十二(依存句法分析)

词法分析之后,语法分析也是理解语言的重要一环。对于简单句子,还可以通过分词进行理解;但对于长句子,还得通过语法来分析才能更好的理解。 语法分析是自然语言处理中的一个重要的任务,其目标就是分析句子的语法结构并将其表示为容易理解的结构。一、短语结构树 由于语言满足复合性原理,通过分解句子为短语、分解短语为单词,下游应用将会得到更多更深层次的结构化信息。 1.1 上下文无关文法 语言其实具备自顶而下的层级关系,固定数量的语法结构能够...

2021-11-16 22:44:11 2013

原创 自然语言处理学习笔记十一(文本分类)

在文本聚类中,体验了无须标注语料库的便利性,但是无监督学习总归无法按照我们的意志预测出文档的类别,限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中,于是有了文本分类的产生。一、文本分类的概念 文本分类,又称为文档分类,指的是将一个文档归类到一个或者多个类别中的自然语言处理任务。文本的类别称为标签,如果一个文档属于多个类别,此时此类问题称为多标签分类。 文本分类是一个典型的监督学习任务,其流程离不开人工指导:人工标注文档的类别,利用...

2021-11-12 15:58:53 4071

原创 自然语言处理学习笔记十(文本聚类)

一、概述 文本聚类是聚类在文本上的应用,即在不需要标注语料的情况下,在文档层级上,用无监督方法自动找出文档与文档间的关联。 1.1 聚类 它是指将给定对象的集合划分为不同子集的过程,目标是使得每个子集内部的元素尽量相似,不同子集间的元素尽量不相似。这些子集又被称为簇,一般没有交集。 根据元素从属于集合的确定程度,分为硬聚类和软聚类。 硬聚类:每个元素被确定地归入一个簇,从属关系是离散的,比较强硬。 软聚类:每个...

2021-11-12 14:17:05 1934

原创 自然语言处理学习笔记九(信息抽取)

一、新词提取 1.1 概述 1.2 基本原理 1.3 信息熵 1.4 互信息 1.5 实现二、关键词提取 2.1 词频统计 2.2 TF-IDF 2.3 TextRank三、短语提取四、关键词提取 4.1 BM25 4.2 TextRank五、总结 ...

2021-11-11 15:25:34 1419

原创 自然语言处理学习笔记八(命名实体识别)

背景 句子经过分词、词性标注之后,已有了初步结构化的趋势。下游应用如果更加关注某类词汇,可以直接根据词性标签来找到它们。但词性标注的作用范围仅限于单个单词,多个单词构成的复合词通常需要在分词和词性标注的结果之上,进行一次复合词的识别,称为命名实体识别。一、概述 1.1 命名实体 文本中描述实体的词汇,如人名、地名、组织名等;它是人们最关注的词汇,往往也是信息抽取任务的焦点。 各个领域都有自己的命名实体,各取所需。但所有的命名实体都...

2021-11-06 16:45:25 1290

原创 自然语言处理学习笔记七(词性标注)

一. 词性标注概述 1.1 什么是词性 词性是单词的语法分类,同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用不同的词性标注集,一般含有形容词、动词、名词等常见词性。 1.2 词性的用处 词性的作用就是提供词语的抽象表示,词性支撑许多的高级应用,当下游应用遇到OOV时,可以通过OOV的词性猜测用法。 1.3 词性标注 它是指为句子中的每个单词预测一个词性标...

2021-11-06 10:49:36 992

原创 自然语言处理学习笔记六(条件随机场)

一、序列标注模型 1.机器学习的模型谱系 机器学习要解决的根本问题就是给定随机变量,来预测另外一些随机变量的问题。预测的随机变量究竟是连续型随机变量还是离散型随机变量,机器学习分为回归与分类问题,NLP最主要的是分类问题。 预测的随机变量是一个独立变量还是多个相互关联的变量,机器学习问题又分为分类问题与结构化预测问题。 根据多维随机变量的建模究竟是联合概率分布还是条件概率分布,派生出生成式模型与判别式模型。 2.生成式模型与判别式模...

2021-11-05 19:55:48 837

原创 自然语言处理学习笔记五(感知机分类)

背景 由于隐马尔可夫模型实现的基于序列标注的中文分词器,效果不理想。 隐马尔可夫模型将语言取决与一个 {B,M,E,S}序列,这个模型假设太单纯,不符合语言规律,语言是包含很多特征的,而马尔可夫模型仅仅捕获两个特征,一个是前一个标签,一个是当前的字符。 线性模型的提出,就是为了捕获到更多的特征,主要有两部分构成,一是用来提取特征的特征函数,二是相应的权重向量w。基于线性模型推导的训练算法就是感知机算法(感知机序列标注是基于分类的)。一、 分类问题...

2021-11-04 20:25:22 948

原创 自然语言处理学习笔记四(序列标注)

一、背景 由于针对于OOV的问题,在最初的全切分阶段已经不可能进入词网,无召回可谈,那如何辨别新词汇呢? 只要将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列问题。 字构词就是序列标注模型的一种应用,序列标注模型中最基础的一种就是隐马尔可夫模型。二、序列标注 1. 序列标注 是指给定一个序列x(x1,x2,x3...),找出序列中每个元素对应标签y(y1,y2,y3....

2021-09-29 16:03:13 658

原创 自然语言处理学习笔记二(词典分词)

一、词典分词的切分算法 1. 完全切分 2. 正向最长匹配 3. 逆向最长匹配 4. 双向最长匹配 二、 速度测评 词典分词的规则没有技术含量,消歧效果也不好,核心不在于精度,而是在于速度。 1. 同等条件下,python的运行速度要比java慢,效率只有java的一半不到 2. 正向与逆向的速...

2021-09-29 14:03:59 265

原创 自然语言处理学习笔记一(入门学习)

一、自然语言处理 它是一门融合了计算机科学、人工智能以及语言学的交叉学科。二、自然语言的特点 1. 词汇量大(现代汉语常用词表总共收录了56008个词条) 2. 非结构化 3. 歧义性 4. 容错性(句子错的离谱,但是都可以猜出想要表达的意思) 5. 易变性(语言都是不断发展变化的) 6. 简略性(人类语言简洁、干练,如一些简称...

2021-09-28 16:51:59 329

原创 自然语言处理 学习笔记三(二元语法与中文分词)

一 、语言模型 1.1 语言模型 语言模型是对语言现象的数学抽象,用来计算句子的出现概率的模型。 1.2 数据稀疏 计算句子出现的概率是通过枚举形成的语料库,但是靠枚举无法估计语料库之外的句子的概率,而实际遇到的句子大部分在语料库之外,导致概率为0的情况。 1.3 语言模型面临的问题 语言模型随着句子长度的增加,必然会遇到数据稀疏、计算代价大的问题。 ...

2021-09-28 16:26:34 1399

原创 知识图谱学习笔记九(总结)

从领域知识图谱的几个生命周期来做总结:1. 知识建模(业务专家参与图谱设计) a. 自顶向下(知识体系比较完善的情况) b. 自底向上(知识体系欠缺的情况) 备注:对于一些新兴领域,知识体系不完善,一部分自顶向下构建,一大部分自底向上。2. 知识存储 针对构建完成的知识图谱设计底层存储方式,完成各类知识的存储,包括基础属性知识、关联知识、事件知识、时序知识、资源类知识等。 知识存储解决方案包括单一式存储和混合式存...

2021-08-22 21:50:57 300

原创 知识图谱学习笔记八(知识问答)

知识问答 知识问答是一个拟人化的智能系统,接收使用自然语言表达的问题,理解用户的意图,获取相关的知识,通过推理计算形成相应的答案并反馈给用户。 知识问答的基本要素 1.问题,也就是问答系统的输入。(问句、选择、填空等) 2.答案,也就是问答系统的输出。 3.智能体,也就是问答系统的执行者。(需要理解问题的语义,掌握并使用知识库解答问题) 4.知识库,存储问答系统的知识。 搜索与知识问...

2021-08-22 12:40:50 769

原创 知识图谱学习笔记七(语义搜索)

语义搜索 背景:互联网从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体与实体之间丰富关系的语义万维网。以谷歌为代表的各大搜索引擎公司通过构建知识图谱来改善搜索质量,从而开启了语义搜索之路。 文档检索与语义检索的不同:语义搜索是需要处理更细粒度的结构化语义数据。 语义搜索系统基本框架:查询构建、查询处理、结果展示、查询优化、语义模型、资源及文档等。结构化的查询语言 语义搜索的核心关键在于查询的构建和理解。查询语言:SPA...

2021-08-13 16:57:22 1678

原创 知识图谱学习笔记六(知识图谱推理)

一、安装mysql 1.下载好安装包解压 MySQL-server-5.6.26-1.linux_glibc2.5.x86_64.rpm MySQL-client-5.6.26-1.linux_glibc2.5.x86_64.rpm ...

2021-08-13 14:23:24 690

原创 知识图谱学习笔记五(知识图谱融合)

知识图谱融合 它是解决知识图谱异构问题的有效途径,通过建立异构本体或异构实例之间的联系,使得异构的知识图谱相互沟通,实现它们之间的互操作。 知识图谱的异构问题 语言层不匹配: 语法不匹配、逻辑表示不匹配、原语的语义不匹配、语言表达能力不匹配 模型层不匹配: 概念化不匹配(概念范围与模型覆盖)、解释不匹配(模型风格与建模术语)...

2021-08-13 11:54:00 860

原创 知识图谱学习笔记四(知识抽取与挖掘)

知识抽取任务以及相关竞赛 知识抽取基本定义 实现自动化构建大规模知识图谱的重要技术。目的在于从不同来源、不同结构的数据中进行知识提取并存储在知识图谱中。 知识抽取子任务 命名实体识别(如:人物、组织、地点、时间等); 关系抽取(实体与实体之间的关系) 事件抽取(识别出文本中关于事件的相关信息,并以结构化的形式呈现) 知识抽取相关竞赛 1.消息理解会议(MUC):指出召回率、精确率是评价信息抽取系统性能的...

2021-08-12 14:18:13 1049

原创 知识图谱学习笔记三(知识存储)

1. 两种主要的图数据模型: RDF图、属性图2.查询语言: RDF图:SPARQL 属性图:Cypher、Gremlin3.知识图谱存储方法 a.基于关系型数据库的存储方案 存储结构:三元组表、水平表、属性表、垂直划分、六重索引、DB2RDF 三元组表 (主、谓、宾) ...

2021-08-11 12:00:29 906

原创 知识图谱学习笔记二(知识图谱表示与建模)

1.知识图谱表示方法 两大派系: 基于离散符号的知识表示 基于连续向量的知识表示 由于知识图谱是很多搜索、问答以及大数据分析系统的数据基础,基于向量的表示更易于和深度学习模型集成,基于向量的知识图谱越来越重视。2.知识表示方法(人工智能,知识是智能的基础,让计算机更容易理解) a. 一阶谓词逻辑表示法 优点:结构性、严密性、可实现性。...

2021-08-10 17:48:51 933

原创 知识图谱学习笔记一

知识图谱需要的基础知识: 数据库、机器学习、自然语言处理。 第一部分基础概念 1. 知识图谱: 是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。 2. 知识图谱的目的 从数据中识别、发现和推断事物与概念之间的复杂关系,是事物关系的可计算模型。 3. 知识图谱的应用...

2021-08-10 16:15:26 197

原创 python+selenium爬虫学习笔记1

一、 环境准备 1. python 3.8 工具采用的pycharm 方便安装 2. selenium Web应用程序的自动化测试工具 备注:此处以火狐来进行演示。下载火狐安装包+火狐浏览器驱动文件 3.配置环境变量 python的环境变量配置(安装的时候可以自动配置) 浏览器驱动环境变量配置(path配置火狐浏览器的安装目录,并将驱动文件放在安装目录下,如: C:\Pr...

2021-06-28 14:11:36 85

原创 hadoop 2.8.1 + zookeeper 3.4.6 + yarn 高可用集群搭建 记录

简单集群介绍 1. hadoop 所在机器 namenode active hdp01 namenode standby hdp02 datanode hdp03 、hdp04、hdp05、hdp06、hdp07、hdp08 2.zookeeper 所在机...

2019-04-03 14:48:18 248

原创 SpringCloud微服务通过proguard进行代码混淆问题记录

b. <putLibraryJarsInTempDir>true</putLibraryJarsInTempDir> 这一行试解决。CreateProcess error=206 文件名或扩展名太长 的问题。找到 <component name="PropertiesComponent">,添加。2. 如果以上配置加上还报错,则需要修改idea里面的配置文件workspace.xml。备注:a.注意修改排除混淆类的包路径文件中。1.文件配置(在pom文件里面添加以下配置)。

2023-04-17 19:29:14 699

原创 window采用bat检测jar包的运行状态

windows 服务器采用bat程序监测java程序的运行状态

2023-02-07 14:20:11 2139

原创 kafka指令问题记录总结(集群版与单机版)

主要记录kafka的指令,会由于指令的不准确而发生报错

2022-04-18 17:57:53 208

原创 Linux离线安装gcc

离线安装gcc

2022-02-28 16:29:39 752

转载 标注语料库表格(转载)

词性用来描述一个词在上下文中的作用。例如描述一个概念的词叫做名词,在下文引用这个名词的词叫做代词。有的词性经常会出现一些新的词,例如名词,这样的词性叫做开放式词性。另外一些词性中的词比较固定,例如代词,这样的词性叫做封闭式词性。因为存在一个词对应多个词性的现象,所以给词准确地标注词性并不是很容易。比如:"改革"在"中国开始对计划经济体制进行改革"这句话中是一个动词,在"医药卫生改革中的经济问题"中是一个名词。把这个问题抽象出来就是已知单词序列 ,给每个单词标注上词性 。 不同...

2021-09-02 15:53:40 338

原创 python连接oracle数据库

1.python导入cx_Oracle 模块 (注意:pycharm导入的话是叫cx_Oracle,其他的工具可能不一样,大家自行验证) 2.运行python,会报错。 cx_Oracle.DatabaseError: DPI-1047: Cannot locate a 64-bit Oracle Client library: XXXXX3.安装instantclient_11_2(花个积分下载一下资源即可)4.将instantclient_11_2...

2021-07-23 09:52:46 218 4

原创 echarts的树状结构图学习1

一、学习自上而下的树状结构图 import * as echarts from 'echarts';var chartDom = document.getElementById('main');var myChart = echarts.init(chartDom);var option;var option = { tooltip: { trigger: 'item', triggerOn: 'mousemove'...

2021-07-20 11:32:52 952

原创 python的学习笔记1-入门篇

1.开发工具推荐 PyCharm 习惯idea开发工具的可以使用这个,风格类似,简单好用。主要用于python的代码编辑。 Anaconda 中有好多页面的插件,可以 在页面上的调试,如 jupyter。 2. 记录一下入门语法以及方法作用的点 python 3以上 1. input("\n") 键盘输入 2. 字符串拼接 ...

2021-04-26 15:32:47 115 4

原创 hive 3.1.1 高可用集群搭建(与zookeeper集成)搭建笔记

一、简介 1. hive 三个节点 分别在hdp01、hdp02 、hdp03 2. zookeeper 5个节点 分别在 hdp04、hdp05、hdp06、hdp07、hdp08 3. hadoop 7个节点...

2019-04-11 15:55:48 3596

转载 mysql默认安装之后,不能远程登录(转载)

本人试过windows下面的运行命令,加上skip-grant-tables,觉得linux下应该就是下面这样设置,应该没问题。windows下:1.停止mysql net stop mysql2.配置环境变量或者在命令目录下,执行命令 mysqld -nt --skip-grant-tables3.再次连接就没有问题了 mysql -uro...

2019-04-08 09:25:09 176

原创 hadoop集群搭建后,不能正常启动

hadoop搭建后,通过start-dfs.sh执行后,还需要namenode节点启动后,一直卡在界面上;   现象描述:          1.启动namenode节点还需要输入密码          2.一直卡在界面上          3.各个datanode节点均已经启动,有进程显示  解决方案:           1.由于启动namenode的时候,还需要输入密...

2019-02-13 20:12:43 1467

转载 将多行转成一行 oracle

这是一个Oracle的列转行函数:LISTAGG()示例代码with temp as(    select 'China' nation ,'Guangzhou' city from dual union all    select 'China' nation ,'Shanghai' city from dual union all    select 'Chin

2017-09-24 17:36:24 425

原创 针对带有参数的onclick事件,点击无效的问题解决方案

在jquery中有时候需要拼html,那么不免会有点击事件;这是遇到如下的写法html +=""   但是,这个点击事件却没有反应。解决办法如下:html+=""也就是 onclick的事件里面的事件方法要用双引号转义,里面的参数要用单引号转义即可

2017-08-18 10:03:35 3138 2

转载 java连接redis

订单安装现在,让我们看看如何设置Redis Java驱动程序。下载jedis.jar - http://repo1.maven.org/maven2/redis/clients/jedis/2.1.0/jedis-2.1.0-sources.jar ,确保下载的jedis.jar是最新版本。将jedis.jar包含到类路径中。Java连接到Redis服务器请参考以下一个简单的示

2017-08-17 13:39:57 244

转载 弹出一个window

方式一、var $win = $('#createChartWin').window({ shadow: true, top:$(document).scrollTop() + ($(window).height()-350) * 0.5, left: 15, modal: true, closed: true, minimizable: false,

2017-08-15 10:58:34 291

转载 hightchart饼状图图例、内容放置在饼上

$(function () {    $('#container').highcharts({        chart: {            plotBackgroundColor: null,            plotBorderWidth: null,            plotShadow: false        },        titl

2017-08-15 09:54:05 4200

installClient.zip

python连接oracle数据库的installclient安装包

2021-07-23

jdk1.7.0_79

该文档是jdk1.7,免安装,直接解压即可!!!版本号是1.7.0_79

2018-07-16

批量导入数据

批量导入数据,格式比较规范的一个整理;可以直接修改一些来使用,也可以自己封装一下成为一个批量导入的小工具

2017-09-19

模拟弹出框

漂亮的弹出框

2017-08-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除