中文文本分析相关资源汇总

邓旭东HIT

于 2020-03-26 09:00:00 发布

阅读量1.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38008864/article/details/105132106

版权

中文文本数据逻辑性分析库

中文文本数据(挖掘)分析相关资源汇总

一、Python中文数据处理库

项目	地址	简介
jieba分词	https://github.com/fxsjy/jieba	中文分词库
中文复杂事件的概念与显式模式	https://github.com/thunderhit/eventextraction	中文复合事件的概念与显式模式，包括条件事件、因果事件、顺承事件、反转事件等事件抽取，并形成事理图谱。
中文信息抽取工具	https://github.com/fighting41love/cocoNLP	从中文文本数据中抽取出结构化的信息，如时间、手机号、运营商、邮箱、地址、人名、身份证
图片识别	https://github.com/breezedeus/cnocr	识别出图片中的中文文本
label-studio多媒体标注工具	https://github.com/heartexlabs/label-studio	可对文本、图片、音频和视频数据进行标注
中文可读性	https://github.com/cdimascio/py-readability-metrics	可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG
Synonyms	https://github.com/huyingxi/Synonyms	用于自然语言理解的很多任务：文本对齐，推荐算法，相似度计算，语义偏移，关键字提取，概念提取，自动摘要，搜索引擎等。
SpaCy 中文模型	https://github.com/howl-anderson/Chinesemodelsfor_SpaCy	SpaCy 中文模型
Scattertext可视化	https://github.com/JasonKessler/scattertext	能否分析出某个类别的文本与其他文本的用词差异；简单修改后可支持中文
HarvestText文本挖掘和预处理工具	https://github.com/blmoistawinde/HarvestText	文本挖掘和预处理工具（文本清洗、新词发现、情感分析、实体识别链接、句法分析等），无监督或弱监督（种子词）方法
开源金融大数据	https://github.com/PKUJohnson/OpenData	股票、基金、期货、宏观等金融数据。还有非金融数据，如空气质量、高考录取分、院线票房等非金融数据
中日韩分词	https://github.com/jeongukjae/python-mecab	中日韩分词工具
汉字数字(中文数字)-阿拉伯数字转换工具	https://github.com/Wall-ee/chinese2digits	最好的汉字数字(中文数字) 阿拉伯数字转换工具。

二、中文语料

资源名	地址	介绍
微信公众号语料库	https://github.com/SophonPlus/ChineseNlpCorpus	搜集、整理、发布中文自然语言处理语料/数据集，与有志之士共同促进中文自然语言处理的发展。
中文公司名语料库	https://github.com/wainshine/Company-Names-Corpus	公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
微信公众号语料库	https://github.com/nonamestreet/weixinpubliccorpus	数据量3G；纯文本,每行一篇，JSON格式。name是微信公众号名字， account是微信公众号ID，title是题目， content是正文。
多语言音频数据	https://voice.mozilla.org/en/datasets	多种语言音频数据，包括来自42,000名贡献者超过1,400小时的语音样本，涵github
知识问答	https://github.com/liuhuanyong/MiningZhiDaoQACorpus	百度知道问答语料库，包括超过580万的问题，938万的答案，5800个分类标签。基于该问答语料库，可支持多种应用，如闲聊问答，逻辑挖掘。
中文任务基准测评	https://github.com/CLUEbenchmark/CLUE	中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜

三、中文知识图谱

社交网络分析大家都听过，社交网络分析使知识图谱中的一个领域。

项目名	地址	简介
知识图谱合集	https://github.com/husthuke/awesome-knowledge-graph	整理知识图谱相关学习资料
文档图谱信息可视化	https://github.com/liuhuanyong/TextGrapher	输入一篇文档，将文档进行关键信息提取，进行结构化，并最终组织成图谱组织形式，形成对文章语义信息的图谱化展示。
事件三元组抽取	https://github.com/liuhuanyong/EventTriplesExtraction	基于依存句法与语义角色标注的事件三元组抽取
中文人物关系抽取	https://github.com/liuhuanyong/PersonRelationKnowledgeGraph	中文人物关系图谱构建；基于知识库的数据回标基于远程监督与bootstrapping方法的人物关系抽取；基于知识图谱的知识问答等应用
证券知识图谱	https://github.com/lemonhu/stock-knowledge-graph	利用网络上公开的数据构建一个小型的证券知识图谱/知识库
大规模中文知识图谱数据	https://github.com/ownthink/KnowledgeGraphData	1.4亿中文知识图谱 ,百度网盘（链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp ）注：解压密码是：https://www.ownthink.com/
京东商品知识图谱	https://github.com/liuhuanyong/ProductKnowledgeGraph	基于京东网站的1300种商品上下级概念，约10万商品品牌，约65万品牌销售关系，商品描述维度等知识库，基于该知识库可以支持商品属性库构建，商品销售问答，品牌物品生产等知识查询服务，也可用于情感分析等下游应用．
重大事件抽取	https://github.com/liuhuanyong/ImportantEventExtractor	针对某一事件话题下的新闻报道集合，通过使用docrank算法，对新闻报道进行重要性识别，并通过新闻报道时间挑选出时间线上重要新闻。

近期文章

Python核心技术与实战

Python全栈-60天精通之路

Python网络爬虫与文本数据分析

中文文本数据逻辑性分析库

Python数据分析相关学习资源汇总帖

漂亮~pandas可以无缝衔接Bokeh

综述:文本分析在市场营销研究中的应用

Lazy Prices公司年报内容变动碰上股价偷懒

用python帮你生产指定内容的word文档

2020年B站跨年晚会弹幕内容分析

YelpDaset: 酒店管理类数据集10+G

NRC词语情绪词典和词语色彩词典

Loughran&McDonald金融文本情感分析库

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。