中文文本数据(挖掘)分析相关资源汇总
一、Python中文数据处理库
项目 | 地址 | 简介 |
---|---|---|
jieba分词 | https://github.com/fxsjy/jieba | 中文分词库 |
中文复杂事件的概念与显式模式 | https://github.com/thunderhit/eventextraction | 中文复合事件的概念与显式模式 ,包括条件事件、因果事件、 顺承事件、反转事件等事件抽取, 并形成事理图谱。 |
中文信息抽取工具 | https://github.com/fighting41love/cocoNLP | 从中文文本数据中抽取 出结构化的信息, 如时间、手机号、运营商、 邮箱、地址、人名、身份证 |
图片识别 | https://github.com/breezedeus/cnocr | 识别出图片中的中文文本 |
label-studio多媒体标注工具 | https://github.com/heartexlabs/label-studio | 可对文本、图片、音频 和视频数据进行标注 |
中文可读性 | https://github.com/cdimascio/py-readability-metrics | 可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG |
Synonyms | https://github.com/huyingxi/Synonyms | 用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 |
SpaCy 中文模型 | https://github.com/howl-anderson/Chinesemodelsfor_SpaCy | SpaCy 中文模型 |
Scattertext可视化 | https://github.com/JasonKessler/scattertext | 能否分析出某个类别的文 本与其他文本的用词差异; 简单修改后可支持中文 |
HarvestText文本挖掘和预处理工具 | https://github.com/blmoistawinde/HarvestText | 文本挖掘和预处理工具(文本清洗 、新词发现、情感分析、 实体识别链接、句法分析等), 无监督或弱监督(种子词)方法 |
开源金融大数据 | https://github.com/PKUJohnson/OpenData | 股票、基金、期货、宏观等金融数据。还有非金融数据,如空气质量、高考录取分、院线票房等非金融数据 |
中日韩分词 | https://github.com/jeongukjae/python-mecab | 中日韩分词工具 |
汉字数字(中文数字)-阿拉伯数字转换工具 | https://github.com/Wall-ee/chinese2digits | 最好的汉字数字(中文数字) 阿拉伯数字转换工具。 |
二、中文语料
资源名 | 地址 | 介绍 |
---|---|---|
微信公众号 语料库 | https://github.com/SophonPlus/ChineseNlpCorpus | 搜集、整理、发布 中文 自然语言处 理语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。 |
中文公司名 语料库 | https://github.com/wainshine/Company-Names-Corpus | 公司简称,缩写,品牌词,企业名 。可用于中文分词、机构名实体识别。 |
微信公众号 语料库 | https://github.com/nonamestreet/weixinpubliccorpus | 数据量3G;纯文本,每行一篇,JSON格式 。name是微信公众号名字, account是微信公众号ID,title是题目, content是正文。 |
多语言 音频数据 | https://voice.mozilla.org/en/datasets | 多种语言音频数据,包括来自42,000名贡献 者超过1,400小时的语音样本,涵github |
知识问答 | https://github.com/liuhuanyong/MiningZhiDaoQACorpus | 百度知道问答语料库,包括超过580万的问题 ,938万的答案,5800个分类标签。 基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。 |
中文 任务基准测评 | https://github.com/CLUEbenchmark/CLUE | 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜 |
三、中文知识图谱
社交网络分析大家都听过,社交网络分析使知识图谱中的一个领域。
项目名 | 地址 | 简介 |
---|---|---|
知识图谱合集 | https://github.com/husthuke/awesome-knowledge-graph | 整理知识图谱相关学习资料 |
文档图谱信息可视化 | https://github.com/liuhuanyong/TextGrapher | 输入一篇文档,将文档进行关键信息提取 ,进行结构化,并最终组织成图谱组织形式, 形成对文章语义信息的图谱化展示。 |
事件三元组抽取 | https://github.com/liuhuanyong/EventTriplesExtraction | 基于依存句法与语义角色标注的事件三元组抽取 |
中文人物关系抽取 | https://github.com/liuhuanyong/PersonRelationKnowledgeGraph | 中文人物关系图谱构建;基于知识库的数据回标 基于远程监督与bootstrapping方法的人物关系抽取 ; 基于知识图谱的知识问答等应用 |
证券知识图谱 | https://github.com/lemonhu/stock-knowledge-graph | 利用网络上公开的数据构建一个小型的证券知识图谱/知识库 |
大规模中文知识图谱数据 | https://github.com/ownthink/KnowledgeGraphData | 1.4亿中文知识图谱 ,百度网盘(链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp )注: 解压密码是:https://www.ownthink.com/ |
京东商品知识图谱 | https://github.com/liuhuanyong/ProductKnowledgeGraph | 基于京东网站的1300种商品上下级概念,约10万商品品牌,约65万品牌销售关系,商品描述维度等知识库,基于该知识库可以支持商品属性库构建,商品销售问答,品牌物品生产等知识查询服务,也可用于情感分析等下游应用. |
重大事件抽取 | https://github.com/liuhuanyong/ImportantEventExtractor | 针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻。 |
近期文章