悟乙己
心如花木,皆向阳而生!
展开
-
自动化报告pptx-python|高效通过PPT模版制造报告(三)
自动化报告pptx-python|高效通过PPT模版制造报告原创 2024-02-02 17:42:08 · 1347 阅读 · 2 评论 -
自动化报告pptx-python|如何将pandas的表格写入PPTX(二)
自动化报告pptx-python|如何将pandas的表格写入PPTX(二)原创 2024-02-01 17:04:07 · 764 阅读 · 0 评论 -
PPT、PDF全文档翻译相关产品调研笔记
文档翻译原创 2024-01-31 17:38:09 · 626 阅读 · 0 评论 -
自动化报告的前奏|使用python-pptx操作PPT(一)
python-pptx的练习原创 2024-01-26 17:54:50 · 1626 阅读 · 0 评论 -
LLM大模型中文开源数据集集锦(三)
头两篇在写【】和【然后笔者自己也测试了一把ChatGLM的P-Tuning V2在【】感觉。原创 2023-05-16 23:56:08 · 4633 阅读 · 0 评论 -
AI智能内容创作的几个方面
昨天刚好看到CSDN有要开通付费专栏(定价有点不合理啊),我就在想有啥好写。。刚好最近的研究方向就是KG +智能写作,而且大大小小的智能内容创作产品、技术也一直在关注,于是就想做个小小搬运匠,看看能不能把相关的内容整理、搬运一下。智能写作可能比较偏重文字创作,内容创作可能就更加宽泛了一些,不仅仅是文字,还有:图片、大热的视频、音乐等载体。现在对于内容创作的需求也是越来越大,很多个...原创 2019-12-19 08:42:00 · 2395 阅读 · 0 评论 -
微信对话开放平台智能对话模块的几个亮点
微信AI首席科学家牛成公布了最新开放方案,并重磅宣布全面开放各层次 NLP 能力。具体说来,微信 AI 迈出了“三大步”:以硬件合作为核心的智言小微硬件开放平台 2.0 正式亮相; 公开以对话开放能力为核心的微信对话开放平台; 全面开放以自然语言处理能力为核心的 NLP 基础技术平台。参考:微信9年:张小龙指明方向,微信AI全面开放NLP能力今天公开课上隆重介绍了...原创 2020-01-10 08:30:00 · 11001 阅读 · 0 评论 -
电商智能写作:阿里妈妈创意中心智能文案引擎
本篇为电商智能写作第一篇,笔者跟踪电商智能写作领域有些日子了,目前已知有成型电商智能写作产品的有:阿里的阿里妈妈(还有其他的几篇该领域的论文,不知道有木有做成产品使用起来),京东AI闪电,宝尊电商等。其中,又以阿里妈妈创意中心这个产品 + 技术 + 论文 + 代码 + 专利都齐全的,所以开篇来说。阿里妈妈一键生成电商营销文案这个是阿里妈妈创意中心,智能文案的试用界面,可以看到用户可以输入...原创 2019-12-29 22:44:29 · 10172 阅读 · 1 评论 -
智能视频生成:阿里系的诸多成果
阿里因为特有的大平台流量,在各种智能内容生成上都涉足较多,而且公之于众的成果颇多。9月26日,阿里巴巴在杭州云栖大会上首次公布了人工智能调用规模:AI每天调用超1万亿次,服务全球10亿人,日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句,已经成为中国最大的人工智能公司。阿里还首次披露人工智能的完整布局,在AI芯片、AI云服务、AI算法、AI平台、产业AI的进展。阿里首...原创 2019-12-22 11:43:56 · 2324 阅读 · 0 评论 -
python | 高效统计语言模型kenlm:新词发现、分词、智能纠错
之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。kenlm的优点(关于kenlm工具训练统计语言模型):训练语言模型用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练。它快速,节省内存,...原创 2019-09-27 15:01:09 · 6317 阅读 · 5 评论 -
python | 关键词快速匹配检索小工具 pyahocorasick / ahocorapy
AC自动机是多模式匹配的一个经典数据结构,原理是和KMP一样的构造fail指针,不过AC自动机是在Trie树上构造的,但原理是一样的。官方github:https://github.com/WojciechMula/pyahocorasick/文章目录1 安装2 使用3 案例1 安装This module is written in C. You need a C compiler i...原创 2019-09-29 17:19:23 · 7434 阅读 · 1 评论 -
主题模型︱几款新主题模型——SentenceLDA、CopulaLDA、TWE简析与实现
百度最近开源了一个新的关于主题模型的项目。文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 .一、Familia简介帮Familia,打个小广告~ Familia的github 主题模型在工业界的应用范式可以抽象原创 2017-07-15 20:51:57 · 18143 阅读 · 2 评论 -
NLP+词法系列(二)︱中文分词技术简述、深度学习分词实践(CIPS2016、超多案例)
摘录自:CIPS2016 中文信息处理报告《第一章 词法和句法分析研究进展、现状及趋势》P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf之前写过一篇中文分词总结,那么在那篇基础上,通过在CIPS2016的摘录进行一些拓展。可参考上篇:NLP+词法系列(一)︱中文分词技术小结、几大分...原创 2017-02-18 22:12:52 · 24271 阅读 · 2 评论 -
NLP+句法结构(三)︱中文句法结构(CIPS2016、依存句法、文法)
摘录自:CIPS2016 中文信息处理报告《第一章 词法和句法分析研究进展、现状及趋势》P8 -P11 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf .NLP词法、句法、语义、语篇综合系列: NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较 NLP+词法系列(二)︱中文分词原创 2017-02-18 22:26:15 · 25914 阅读 · 0 评论 -
NLP+语义分析(四)︱中文语义分析研究现状(CIPS2016、角色标注、篇章分析)
摘录自:CIPS2016 中文信息处理报告《第二章 语义分析研究进展、 现状及趋势》P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同, 语义分析又可进一步分解为词汇级...原创 2017-02-18 22:51:17 · 37847 阅读 · 0 评论 -
NLP+语篇分析(五)︱中文语篇分析研究现状(CIPS2016)
摘录自:CIPS2016 中文信息处理报告《第三章 语篇分析研究进展、现状及趋势》P21 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf语篇分析又称话语分析或篇章分析,是对“ 语篇” 整体进行的分析,包括语篇基本单元之间的关系,不同语篇单元的成份间关联以及语篇所含的信息等等。 语篇是由一个以上的句子(原创 2017-02-18 23:02:33 · 8526 阅读 · 2 评论 -
R+中文︱中文文本处理杂货柜——chinese.misc
Package: chinese.misc Version: 0.1.3 Date: 2017-03-12 Authors:Wu Jiang (吴江),微信号:theblackriver 受R语言中文社区的文章《diRblo|中文文本分析方便工具包chinese.misc简介(附文本样例)》启发,来看看这个刚刚发布的中文处理新包,感谢作者允许转载。因为作者在github上写的有点乱,原创 2017-03-19 21:58:25 · 3338 阅读 · 4 评论 -
知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构。一、知识图谱商业应用01 唯品金融大数据使用的是OrientDB,Orientdb提供了大量的接口, 其中最常用的就是Gremlin和sql。Gremlin是Apache TinkerPop 框架下的图遍历语言。Gremlin是一种函数式数据流语言,可以使得用户使用简洁的方式表述复杂...原创 2017-03-26 12:09:32 · 37611 阅读 · 0 评论 -
sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer
分词这块之前一直用R在做,R中由两个jiebaR+Rwordseg来进行分词,来看看python里面的jieba. 之前相关的文章: R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解) R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较).一、jieba分词功能来源github:https://githu原创 2017-05-08 22:24:21 · 35205 阅读 · 5 评论 -
python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP
公众号“素质云笔记”定期更新博客内容: THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) 四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。jieba在这不做介绍,可见博客:...原创 2017-08-10 17:42:39 · 81095 阅读 · 10 评论 -
fastrtext︱R语言使用facebook的fasttext快速文本分类算法
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的。理论介绍可见博客:NLP︱高级词向量表达(二)——FastText(简述、学习笔记) 本轮新更新的fastrtext,同样继承了两个功能:训练词向量 + 文本分类模型训练来源:https://github.com/pommedeterresautee/f原创 2017-10-27 18:49:43 · 3446 阅读 · 1 评论 -
pyLDA系列︱gensim中带'监督味'的作者-主题模型(Author-Topic Model)
笔者很早就对LDA模型着迷,最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款:Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型 解析 功能 ATM模型(Author-Topic Model) 加...原创 2018-02-20 15:37:39 · 11661 阅读 · 19 评论 -
pyLDA系列︱gensim中的主题模型(Latent Dirichlet Allocation)
笔者很早就对LDA模型着迷,最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款:Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型 解析 功能 ATM模型(Author-Topic Model) 加...原创 2018-02-23 23:17:02 · 17341 阅读 · 6 评论 -
pyLDA系列︱考量时间因素的动态主题模型(Dynamic Topic Models)
笔者很早就对LDA模型着迷,最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款:Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型 解析 功能 ATM模型(Author-Topic Model) 加...原创 2018-02-26 15:29:20 · 11007 阅读 · 7 评论 -
ChineseWiki︱百万中文维基百科词条下载与整理
维基百科中文词条维基百科开源的中文词条内容,收集了99W+词条,当然比百度少了不少。 有效处理该原始语料的方法主要有两个:1、Wikipedia Extractor;2、gensim的wikicorpus库。 两种处理都比较粗糙,导致:Wikipedia Extractor提取出来的结果,会去掉很多空格与括号里面的内容;gensim.corpora.wikicorpus.WikiC...原创 2018-03-07 09:35:49 · 17786 阅读 · 2 评论 -
python爬虫︱百度百科的requests请求、百度URL格式、网页保存、爬虫模块
1 、 百科网页请求1.1 网站解析requests与urllib.request对比:py3中主要用requests以及urllib.request两款库用来做网页内容的解析,两者的使用较多以requests为优,解析的内容会做较多的优化。 两款内容的对比:from bs4 import BeautifulSoupurl="http://finance.qq.com/gdyw...原创 2018-03-08 16:48:01 · 2572 阅读 · 0 评论 -
练习题︱基于今日头条开源数据的词共现、新热词发现、短语发现
最近笔者在做文本挖掘项目时候,写了一些小算法,不过写的比较重,没有进行效率优化,针对大数据集不是特别好用,不过在小数据集、不在意性能的情况下还是可以用用的。本次练习题中可以实现的功能大致有三个:短语发现新词发现词共现短语发现、新词发现跟词共现有些许区别: [‘举’,’个’,‘例子’,‘来说’]短语发现、新词发现,是词-词连续共现的频率,窗口范围为1,也就是:‘举’,‘例...原创 2018-05-25 18:43:09 · 6524 阅读 · 1 评论 -
流水账︱Elmo词向量中文训练过程杂记
1 elmo是什么?参考:《文本嵌入的经典模型与最新进展》 人们已经提出了大量可能的词嵌入方法。最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设的无监督学习方法(在相同上下文中的单词往往具有相似的含义)。虽然有些人通过结合语义或句法知识的有监督来增强这些无监督的方法,但纯粹的无监督方法在 2017-2018 中发展非常有趣,最著名的是 FastText(word2v...原创 2018-08-21 22:53:21 · 24823 阅读 · 13 评论 -
练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇)
该练习题来的很蹊跷,笔者在看entity embeddings的东西,于是看到了16年的这篇文章:Learning Query and Document Relevance from a Web-scale Click Graph,想试试效果,就搜到了qdr这个项目,然后试了试,虽然entity embeddings做的不好,但是好像可以依据里面的文本匹配搞搞问答,于是花了一点时间,因为是c...原创 2018-08-30 21:31:49 · 1424 阅读 · 2 评论 -
ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)
无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:事件抽取(三元组)观点抽取“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色...原创 2018-09-19 10:57:44 · 10103 阅读 · 10 评论 -
基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索
(~免费广告位一则~)AI Lab开源大规模高质量中文词向量数据,800万中文词随你用,质量非常高,就是一个词向量.txt文件都有16G之多,太夸张了。。不过的确非常有特点:⒈ 覆盖率(Coverage):该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI Lab...原创 2018-11-12 22:22:58 · 10951 阅读 · 25 评论 -
【介绍】GNES ——"Pythonic"的直观方式快速构建神经搜索框架
来自腾讯AI Lab肖涵(肖涵博士,腾讯AI Lab GNES项目组负责人)大神的开源项目,非常赞:GNES Flow。GNES Flow让你通过“Pythonic”的直观方式快速构建神经搜索框架,将GNES架构中的各个微服务搭积木一样组织起来。它支持可视化,多进程/线程/DockerSwarm/K8s后台。GNESFlow和GNES的关系就如同Keras和Tensorflow一样,它为不熟...原创 2019-10-24 11:53:13 · 1289 阅读 · 0 评论 -
平民级NER︱pycrfsuite的介绍与应用
1 前言不知道哪篇文献中提及到了NER的几款最、最、最常见模型:从图中可以看到,其实CRF和BiLSTM-CRF效果差距不大,本身能省事儿就省事儿的原理,用简单的CPU就可以跑的,pycrfsuite非常符合。这个开源项目medical_ner_crfsuite已经说得蛮清楚了,而且代码+数据也开源了,笔者就不赘述了。除了pycrfsuite,还有sklearn_crfsuite也是同样...原创 2019-12-05 21:52:30 · 3041 阅读 · 2 评论