自然语言处理
文章平均质量分 96
sty945
这个作者很懒,什么都没留下…
展开
-
im2col函数实现超级详细解释
im2col函数是进行卷积运算所常用的一个函数,它的作用是将进行卷积运算的一组图片二维化,而后再与卷积核进行矩阵相乘,代替了卷积运算原来相乘再相加的运算形式,可以大大减少运算所需时间。...原创 2022-06-07 15:18:20 · 11063 阅读 · 5 评论 -
jieba词性说明字典
{ "n": "普通名词", "f": "方位名词", "s": "处所名词", "t": "时间", "nr": "人名", "ns": "地名", "nt": "机构名", "nw": "作品名", "nz": "其他专名", "v": "普通动词", "vd": "动副词", "vn": "名动词", "a": "形容词", "ad": "副形词", "an": "名形词",原创 2020-11-07 18:56:28 · 745 阅读 · 0 评论 -
阿里巴巴图学习框架 euler 安装运行记录
安装依赖Euler的编译和启动依赖libhdfs.so和libjvm.so存在于$LD_LIBRARY_PATH中更新软件源缓存apt-get update安装JAVA以及HDFS客户端环境apt-get install -y curl default-jre-headless# 下面的步骤是安装HDFS客户端,对于单机用户而言下面的步骤可以参略curl -O https...原创 2020-05-07 14:08:14 · 1166 阅读 · 3 评论 -
通过聚合数据API获取微信精选文章
思路在聚合数据申请账号(https://www.juhe.cn/)通过聚合数据api获取微信精选文章api通过newspaper库提取相应的文本内容,关于newspaper库的使用方法可以参考这里代码# -*- coding: utf-8 -*-# !/usr/bin/env python# Time: 2019/5/9 18:57# Author: sty# Fil...原创 2019-08-15 09:42:29 · 663 阅读 · 0 评论 -
centos 7.4 上安装neo4j并测试
安装neo4j 社区地址如下:https://neo4j.com/download-center/#community在centos上的安装过程如下(使用root权限):获取官方的keycd /tmpwget http://debian.neo4j.org/neotechnology.gpg.keyrpm --import neotechnology.gpg.key2.将官方...原创 2019-07-20 15:53:25 · 2302 阅读 · 0 评论 -
NLP相关论文上新-2019
文章目录2019.070724个人觉得有价值、有帮助的论文2019.070724计算机视觉和自然语言联合进行研究的趋势:任务、数据集和方法的调研(Trends in Integration of Vision and Language Research:A Survey of Tasks, Datasets, and Methods)【PDF】长形式的问答(ELI5: Long F...原创 2019-07-24 09:33:54 · 681 阅读 · 0 评论 -
知识图谱中传统关系抽取方法
目前主要采用统计机器学习的方法,将关系实例转换成高 维空间中的特征向量或直接用离散结构来表示,在标注语 料库上训练生成分类模型,然后再识别实体间关系 基于特征向量方法最大熵模型(Kambhatla 2004)和支持向量机 (Zhao et al., 2005;Zhou et al., 2005; Jiang et al., 2007)等主要问题:如何获取各种有效的词法、句法、语义等特征,...原创 2019-07-11 09:58:00 · 1642 阅读 · 1 评论 -
命名实体的消歧
文章目录定义任务基于聚类的实体消歧基本思路核心问题挑战基于链接的实体消歧主要步骤:如何进行行实体链接?定义命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧任务基于聚类的实体消歧把所有实体指称项按其指向的目标实体进行聚类每一个实体指称项对应到一个单独的类别基本思路同一指称项具有近似的上下文利用聚类算法进行消歧核...原创 2019-07-05 17:45:36 · 3293 阅读 · 0 评论 -
最常见NLP任务练手项目汇总
分词 Word Segmentationchqiwang/convseg ,基于CNN做中文分词,提供数据和代码。词预测 Word PredictionKyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。文本蕴涵 Textual EntailmentSteven-Hewitt/Entailment-with-Tensorflow,基于Ten...原创 2019-05-14 19:58:05 · 913 阅读 · 0 评论 -
如何利用python的newspaper包快速爬取网页数据
文章目录前言一个爬取新闻网页数据的神器小试牛刀如何快速安装windows安装Debian / Ubuntu安装OSX安装体验更多的功能前言随着越来的进行自然语言处理相关方面的研究,但是,往往一些文本数据,我们很难去获得,那么如何快速的获取网页数据呢?最常用的方法就是自己写爬虫或者借助别人的爬虫框架来爬取网站,当时这个往往学习成本比较高**,那么我们有没有什么捷径可以很快的的通过别人已经定义好的...原创 2019-02-24 11:36:19 · 6680 阅读 · 1 评论 -
机器学习分类指标:精确率、准确率、召回率详解
混淆矩阵在介绍具体的定义之前先了解一些混淆矩阵(confusion matrix):一种 NxN 表格,用于总结分类模型的预测效果;即标签和模型预测的分类之间的关联。在混淆矩阵中,一个轴表示模型预测的标签,另一个轴表示实际标签。N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例:-肿瘤(预测的标签)非肿瘤(预测的标签)肿瘤(实际标...原创 2018-10-18 23:22:26 · 11136 阅读 · 0 评论 -
利用cre2进行分组模式匹配的实例
code#include <stdio.h>#include <stdlib.h>#include <string.h>#include <cre2.h>int init_ptn(const char *str_ptn, cre2_regexp_t **pPtn){ // 初始化cre2的正则表达式 cre2_opt...原创 2018-08-28 09:04:26 · 5551 阅读 · 0 评论 -
TF-IDF 原理及sklearn中的tf-idf实例分析
背景介绍在一个大的文本语料库中,一些单词将出现很多次(例如 “the”, “a”, “is” 是英文),因此对文档的实际内容没有什么有意义的信息。 如果我们将直接计数数据直接提供给分类器,那么这些频繁词组会掩盖住那些我们关注但很少出现的词。 为了为了重新计算特征权重,并将其转化为适合分类器使用的浮点值,因此使用 tf-idf 变换是非常常见的。 Tf表示术语频率,而 tf-idf 表示术语...原创 2018-08-18 22:32:20 · 12253 阅读 · 3 评论 -
re2正则表达式匹配引擎的c接口版本cre2的中文使用手册
1 基本类型定义不透明类型:cre2_regexp_t 正则表达式对象的不透明类型; 它用于 声明指向对象的指针。此类型的实例可用于 任意数量的匹配操作,并且对于多个线程并发使用是安全的。Struct Typedef:cre2_string_t 用于引用另一个 字符串的一部分的简单数据结构。它有以下领域: 'const char * data'...原创 2018-07-13 20:37:02 · 8871 阅读 · 0 评论 -
re2的c接口版本cre2的使用手册
This is cre2.info, produced by makeinfo version 6.3 from cre2.texi.This document describes version 0.3.4 of CRE2, a C language wrapper for the C++ library RE2: a fast, safe, thread-friendly alterna...原创 2018-07-04 15:02:00 · 7397 阅读 · 0 评论 -
语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)
前言实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”定义WER 字错误率句错误率为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。公式为: Substitution——替换Deletion——删除Inse...原创 2018-05-24 17:47:38 · 42126 阅读 · 2 评论