汉语分词
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
简单NLP分析套路(2)----分词,词频,命名实体识别与关键词抽取
先说点闲话,google 近期发布了颠覆性的NLP模型–BERT ,大家有空可以了解一下,这是张俊林博士写的科普文章:https://mp.weixin.qq.com/s/EPEsVzbkOdz9GovrAM-p7g上一篇文章讲讲解了,如何使用爬虫积累三种类型的语料库,我就针对自己的博客进行一些简单的分析工作。...原创 2018-11-25 23:26:29 · 12029 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 第5课 :分词评测及语料库简介
语料收集文章大纲语料收集语料库汉语标注语料库网络收集资料合集清华大学北京大学语料库在线(教育部语言文字应用研究所计算语言学研究室)大规模中文自然语言处理语料搜狗实验室中英文NLP 差异公开数据集语料库(Corpus,负数为Corpora或Corpuses)被定义为:为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。一...原创 2019-07-13 19:00:30 · 1435 阅读 · 0 评论 -
《自然语言处理实战入门》 第三章 :中文分词原理及相关组件简介 ---- 语言学与分词技术简介
汉语,即汉族的语言,是中国通用语言,国际通用语言之一,属汉藏语系,汉语历史悠久,使用人数最多,世界上使用汉语的人数至少15亿 ,超过世界总人口的20%汉字最早起源于商朝的甲骨文,距今已经有3000-4000年的历史了。 文字的目的是为了记录,古汉语以独字为核心,即使隋唐以后汉语书面语逐渐向口语化发展。原创 2019-07-13 19:01:55 · 1634 阅读 · 0 评论 -
《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词效果评测最佳实践
汉语分词技术----以jieba 分词为例以我认为使用起来最友好的jieba 分词为例,我们来认识一下基于统计类算法的汉语分词流程。图片中例子参考:http://www.cnblogs.com/zhbzz2007/p/6076246.htmlJieba分词的特点结巴分词安装好即可使用,自带一个35w 的语料库,其中标注了汉语常见词汇的词频,和词性。概况来说,结巴分词主要有以下三个特点...原创 2019-07-24 17:15:52 · 1276 阅读 · 0 评论