NLP︱R+python
文章平均质量分 77
悟乙己
心如花木,皆向阳而生!
展开
-
盘点 三款高可用的机器学习模型 web页面化的工具(一)
盘点 三款高可用的机器学习模型 web页面化的工具原创 2022-11-20 15:40:08 · 3122 阅读 · 0 评论 -
hanlp的安装问题
安装hanlp的时候遇到一些问题。原创 2022-11-18 18:29:42 · 692 阅读 · 0 评论 -
多渠道归因分析:python实现马尔可夫链归因(三)
本篇主要是python实现马尔科夫链归因,1 关联理论参考:数据运营36计:马尔可夫链对营销渠道归因建模,R语言实现马尔可夫链是一个过程,它映射运动并给出概率分布,从一个状态转移到另一个状态。马尔可夫链由三个属性定义:状态空间:处理可能存在的所有状态的集合转移概率:从一个状态转移到另一个状态的概率当前状态分布 - 在过程开始时处于任何一个状态的概率分布那么用户行为路径中的每个渠道可以看作这里的每个状态。在知道状态空间的情况下,所求的渠道贡献率就是每条路径的转移概率。所以马尔可夫链模型可以用原创 2021-05-26 16:57:00 · 5058 阅读 · 3 评论 -
网络表情NLP(二)︱特殊表情包+emoji识别
这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。文章目录1 emoji表情识别几种特殊符号:颜文字,emoji,特殊标号.其中,emoji,特殊符号都是可以分词分开的,但是颜文字字数比较多,分词的时候会占着比较多的内容且不太好分1 emoji表情识别github:https://gi原创 2020-06-02 23:08:48 · 5043 阅读 · 0 评论 -
网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现
这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。文章目录1 混用的几个库1.1 模块一:rouge1.2 模块二:jieba_fast1.3 关键词查询组件:flashtext2 颜文字检测与识别2.1 颜文字检测2.2 颜文字实体分词3 新颜文字发现3.1 新颜文字发现3.2 颜文字属性识别原创 2020-06-02 22:27:26 · 3924 阅读 · 0 评论 -
NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10
随着新版本的推出,RAPIDS 迎来了其推出一周年纪念日。回顾所经历的一年,RAPIDS团队就社区对该项目的关心和支持表示衷心的感谢。此前,RAPIDS获得了其首个BOSSIE奖。非常感谢各位的支持!RAPIDS团队将继续推动端对端数据科学加快发展,达到新高度。文章目录RAPIDSRAPIDS定义rapids背景资料RAPIDS核心库更新cuDFcuML 和 XGBoost从cuML 训练到...转载 2020-02-25 19:55:30 · 3303 阅读 · 0 评论 -
平民级NER︱pycrfsuite的介绍与应用
1 前言不知道哪篇文献中提及到了NER的几款最、最、最常见模型:从图中可以看到,其实CRF和BiLSTM-CRF效果差距不大,本身能省事儿就省事儿的原理,用简单的CPU就可以跑的,pycrfsuite非常符合。这个开源项目medical_ner_crfsuite已经说得蛮清楚了,而且代码+数据也开源了,笔者就不赘述了。除了pycrfsuite,还有sklearn_crfsuite也是同样...原创 2019-12-05 21:52:30 · 2925 阅读 · 2 评论 -
练习题︱基于今日头条开源数据的词共现、新热词发现、短语发现
最近笔者在做文本挖掘项目时候,写了一些小算法,不过写的比较重,没有进行效率优化,针对大数据集不是特别好用,不过在小数据集、不在意性能的情况下还是可以用用的。本次练习题中可以实现的功能大致有三个:短语发现新词发现词共现短语发现、新词发现跟词共现有些许区别: [‘举’,’个’,‘例子’,‘来说’]短语发现、新词发现,是词-词连续共现的频率,窗口范围为1,也就是:‘举’,‘例...原创 2018-05-25 18:43:09 · 6466 阅读 · 1 评论 -
ChineseWiki︱百万中文维基百科词条下载与整理
维基百科中文词条维基百科开源的中文词条内容,收集了99W+词条,当然比百度少了不少。 有效处理该原始语料的方法主要有两个:1、Wikipedia Extractor;2、gensim的wikicorpus库。 两种处理都比较粗糙,导致:Wikipedia Extractor提取出来的结果,会去掉很多空格与括号里面的内容;gensim.corpora.wikicorpus.WikiC...原创 2018-03-07 09:35:49 · 17482 阅读 · 2 评论 -
pyLDA系列︱考量时间因素的动态主题模型(Dynamic Topic Models)
笔者很早就对LDA模型着迷,最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款:Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型 解析 功能 ATM模型(Author-Topic Model) 加...原创 2018-02-26 15:29:20 · 10725 阅读 · 7 评论 -
pyLDA系列︱gensim中的主题模型(Latent Dirichlet Allocation)
笔者很早就对LDA模型着迷,最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款:Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型 解析 功能 ATM模型(Author-Topic Model) 加...原创 2018-02-23 23:17:02 · 17171 阅读 · 6 评论 -
pyLDA系列︱gensim中带'监督味'的作者-主题模型(Author-Topic Model)
笔者很早就对LDA模型着迷,最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款:Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型 解析 功能 ATM模型(Author-Topic Model) 加...原创 2018-02-20 15:37:39 · 11572 阅读 · 19 评论 -
python︱gensim训练word2vec及相关函数与功能理解
一、gensim介绍gensim是一款强大的自然语言处理工具,里面包括N多常见模型: - 基本的语料处理工具 - LSI - LDA - HDP - DTM - DIM - TF-IDF - word2vec、paragraph2vec .二、训练模型1、训练最简单的训练方式:# 最简单的开始import gensimsent...原创 2017-04-09 11:23:56 · 86879 阅读 · 7 评论 -
cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)
在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。CIPS2016 中文信息处理报告《第五章 语言表示与深度学习研究进展、现状及趋势》第三节 技术方法和研原创 2017-02-05 19:06:55 · 14737 阅读 · 7 评论 -
sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer
分词这块之前一直用R在做,R中由两个jiebaR+Rwordseg来进行分词,来看看python里面的jieba. 之前相关的文章: R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解) R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较).一、jieba分词功能来源github:https://githu原创 2017-05-08 22:24:21 · 35039 阅读 · 5 评论 -
python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP
公众号“素质云笔记”定期更新博客内容: THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) 四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。jieba在这不做介绍,可见博客:...原创 2017-08-10 17:42:39 · 80888 阅读 · 10 评论 -
fastrtext︱R语言使用facebook的fasttext快速文本分类算法
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的。理论介绍可见博客:NLP︱高级词向量表达(二)——FastText(简述、学习笔记) 本轮新更新的fastrtext,同样继承了两个功能:训练词向量 + 文本分类模型训练来源:https://github.com/pommedeterresautee/f原创 2017-10-27 18:49:43 · 3370 阅读 · 1 评论 -
MOne︱基于词包的无监督多主题得分 练习题
MOne基于词包的无监督多主题得分1 开源的今日头条又开源了一个某机构整理的今日头条数据,可见:今日头条中文新闻文本(多层)分类数据集 本数据集有1000+分类,2914000条数据,虽然没有放开正文,但是也是非常好的词包收集源,于是笔者花了很久整理一版本。今日头条的数据样式为: 以|,|分割的各字段,从前往后分别是 新闻ID,分类代码,新闻字符串(仅含标题),新闻关键词,新闻labe...原创 2018-06-25 21:52:47 · 826 阅读 · 0 评论 -
流水账︱Elmo词向量中文训练过程杂记
1 elmo是什么?参考:《文本嵌入的经典模型与最新进展》 人们已经提出了大量可能的词嵌入方法。最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设的无监督学习方法(在相同上下文中的单词往往具有相似的含义)。虽然有些人通过结合语义或句法知识的有监督来增强这些无监督的方法,但纯粹的无监督方法在 2017-2018 中发展非常有趣,最著名的是 FastText(word2v...原创 2018-08-21 22:53:21 · 24728 阅读 · 13 评论 -
python︱flashtext高效关键词查找与替换
项目链接:https://github.com/vi3k6i5/flashtext 原文:资源 | 十五分钟完成Regex五天任务:FastText,语料库数据快速清理利器 .性能:案例:字符串查找英文:# pip install flashtextfrom flashtext.keyword import KeywordProcessorkeyword_processor = Keywor原创 2017-11-13 16:41:33 · 11727 阅读 · 4 评论 -
python | 关键词快速匹配检索小工具 pyahocorasick / ahocorapy
AC自动机是多模式匹配的一个经典数据结构,原理是和KMP一样的构造fail指针,不过AC自动机是在Trie树上构造的,但原理是一样的。官方github:https://github.com/WojciechMula/pyahocorasick/文章目录1 安装2 使用3 案例1 安装This module is written in C. You need a C compiler i...原创 2019-09-29 17:19:23 · 7299 阅读 · 1 评论 -
python | 高效统计语言模型kenlm:新词发现、分词、智能纠错
之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。kenlm的优点(关于kenlm工具训练统计语言模型):训练语言模型用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练。它快速,节省内存,...原创 2019-09-27 15:01:09 · 5971 阅读 · 5 评论 -
gensim-fast2vec改造、灵活使用大规模外部词向量(具备OOV查询能力)
本篇是继 极简使用︱Gemsim-FastText 词向量训练以及OOV(out-of-word)问题有效解决 之后,让之前的一些旧的"word2vec"具备一定的词表外查询功能。还有一个使用场景是很多开源出来的词向量很好用,但是很大,用gensim虽然可以直接用,如果能尽量节省一些内存且比较集中会更好,同时如果有一些OOV的功能就更好了,于是笔者就简单抛砖引玉的简单写了该模块。譬如以下这些大...原创 2019-05-31 11:46:38 · 2324 阅读 · 0 评论 -
基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索
(~免费广告位一则~)AI Lab开源大规模高质量中文词向量数据,800万中文词随你用,质量非常高,就是一个词向量.txt文件都有16G之多,太夸张了。。不过的确非常有特点:⒈ 覆盖率(Coverage):该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI Lab...原创 2018-11-12 22:22:58 · 10705 阅读 · 25 评论 -
NLP︱高级词向量表达(二)——FastText(简述、学习笔记)
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classif...原创 2017-02-03 23:20:56 · 93273 阅读 · 12 评论 -
文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性
现实情况中,很多机器学习训练集会遇到样本不均衡的情况,应对的方案也有很多种。笔者把看到的一些内容进行简单罗列,此处还想分享的是交叉验证对不平衡数据训练极为重要。文章目录1 样本不平衡的解决思路1.2 将不平衡样本当作离群点1.2 欠采样/过采样1.3 训练策略的优化1.3.1 Focal_Loss1.3.2 class_weight1.4 不平衡评价指标:不要ROC,用Precision/R...原创 2018-11-01 14:24:26 · 9073 阅读 · 0 评论 -
比赛必备 ︱ 省力搞定三款词向量训练 + OOV词向量问题的可性方案
本篇为资源汇总,一些NLP的比赛在抽取文本特征的时候会使用非常多的方式。传统的有:TFIDF/LDA/LSI等偏深度的有:word2vec/glove/fasttext等还有一些预训练方式:elmo / bert文章目录@[toc]1 之前的几款词向量介绍与训练帖子2 极简训练glove/word2vec/fasttext2.1 word2vec的训练与简易使用2.2 glove...原创 2018-10-31 21:48:09 · 9581 阅读 · 1 评论 -
极简使用︱Gensim-FastText 词向量训练以及OOV(out-of-word)问题有效解决
glove/word2vec/fasttext目前词向量比较通用的三种方式,之前三款词向量的原始训练过程还是挺繁琐的,这边笔者列举一下再自己使用过程中快速训练的方式。其中,word2vec可见:python︱gensim训练word2vec及相关函数与功能理解glove可见:极简使用︱Glove-python词向量训练与使用因为是在gensim之中的,需要安装fasttext,可见:htt...原创 2018-10-13 19:37:17 · 41576 阅读 · 8 评论 -
极简使用︱Glove-python词向量训练与使用
glove/word2vec/fasttext目前词向量比较通用的三种方式,其中word2vec来看,在gensim已经可以极快使用(可见:python︱gensim训练word2vec及相关函数与功能理解)官方glove教程比较啰嗦,可能还得设置一些参数表,操作不是特别方便。笔者使用的时候,用的是一款比较省力/封装的。官方glove:https://github.com/stanfordn...原创 2018-10-12 16:27:34 · 32978 阅读 · 22 评论 -
ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)
无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:事件抽取(三元组)观点抽取“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色...原创 2018-09-19 10:57:44 · 10010 阅读 · 10 评论 -
LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)
关于局部敏感哈希算法,之前用R语言实现过,但是由于在R中效能太低,于是放弃用LSH来做相似性检索。学了python发现很多模块都能实现,而且通过随机投影森林让查询数据更快,觉得可以试试大规模应用在数据相似性检索+去重的场景。 私认为,文本的相似性可以分为两类:一类是机械相似性;一类是语义相似性。 机械相似性代表着,两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹原创 2017-04-19 18:58:51 · 14766 阅读 · 3 评论 -
R︱Softmax Regression建模 (MNIST 手写体识别和文档多分类应用)
本文转载自经管之家论坛, R语言中的Softmax Regression建模 (MNIST 手写体识别和文档多分类应用)R中的softmaxreg包,发自2016-09-09,链接:https://cran.r-project.org/web/packages/softmaxreg/index.html——————————————————————————————————————转载 2016-10-12 10:35:09 · 6013 阅读 · 4 评论 -
R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血)
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~——————————————————————————— R语言·文本挖掘︱Rwordseg/rJava两包的安装 笔者:文本挖掘中这两个包可谓是“老顽固”,做文本挖掘必须要过的关卡,今天倒腾了一天,桌面下了一堆东西,终于弄出来了。故此,赶紧记录下来,以后可用:关于这...原创 2016-11-25 23:24:56 · 40433 阅读 · 9 评论 -
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
R语言︱文本挖掘套餐包之——XML+tm+SnowballC包笔者寄语:文本挖掘、情感分析是目前非结构数据非常好用、有效的分析方式。先针对文本挖掘这个套餐包做个简单了解。一般来说一个完整的文本挖掘解决流程是:网页爬取数据——数据格式转化(分隔)——建立语料库——词频去噪——提取词干——创建文档-词频矩阵——后续分析(聚类、词云等)XML包可以实现原创 2016-04-04 11:38:40 · 10303 阅读 · 7 评论 -
R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)
笔者寄语:情感分析中对文本处理的数据的小技巧要求比较高,笔者在学习时候会为一些小技巧感到头疼不已。原创 2016-04-27 22:56:29 · 24631 阅读 · 14 评论 -
R语言︱情感分析—基于监督算法R语言实现(二)
笔者寄语:本文大多内容来自未出版的《数据挖掘之道》的情感分析章节。本书中总结情感分析算法主要分为两种:词典型+监督算法型。监督算法型主要分别以下几个步骤:构建训练+测试集+特征提取(TFIDF算法)+K层交叉验证。一、TFIDF算法指标的简介监督式算法需要把非结构化的文本信息转化为结构化的一些指标,这个算法提供了以下的一些指标,在这简单叙述:TF = 某词在文章中出现的原创 2016-05-03 10:38:08 · 15392 阅读 · 32 评论 -
R语言︱情感分析—词典型代码实践(最基础)(一)
笔者寄语:词典型情感分析对词典要求极高,词典中的词语需要人工去选择,但是这样的选择会很有目标以及针对性。本文代码大多来源于《数据挖掘之道》的情感分析章节。本书中还提到了监督算法式的情感分析,可见博客: R语言︱情感分析—基于监督算法R语言实现笔记。可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)对着看。词典型情感分析大致有以下几个步原创 2016-05-04 12:29:27 · 35036 阅读 · 21 评论 -
情感分析︱网络公开的免费文本语料训练数据集汇总
包括:一些免费的语料库+一些有效分词软件————————————————————————————————————————————————一、语料库链接下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易转载 2016-05-05 11:38:58 · 28813 阅读 · 2 评论 -
R语言︱文本挖掘——词云wordcloud2包
笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下。但是在下载的时候,遇见很多问题,安装问题困扰着。。。包中函数本身很好用,很简单,而且图形众多。————————————————————————————————————————————一、wordcloud2包的安装官方郎大为老师github博客链接:https原创 2016-06-09 11:15:08 · 49620 阅读 · 26 评论 -
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)
关于相似性以及文档特征、词特征有太多种说法。弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分。——————————————————————————————————————————————一、单词的表示方式1、词向量 词向量是现行较为多的方式,另外一篇博客已经写了四种词向量的表达原创 2016-08-10 18:21:07 · 40583 阅读 · 0 评论