Python文本挖掘笔记:1.2文本挖掘的基本流程和任务

文本挖掘/NLP的基本流程
1.语料获取(比如网络数据抓取、文本文件读入、图片OCR转化…)
2.原始语料的数据化(比如分词、信息清理与合并、文档-词条矩阵、相关字典编制、信息的转换…)
3.内在信息挖掘与展示(词云、关键词提取、自动摘要、文档聚类、情感分析、文章推荐…)
常见的TM分析任务
1.亚洲语言分词(及结果展示)
2.自动摘要
3.指定消解
例:他对她说它的尾巴很短
4.机器翻译
5.词性标注
6.主题识别
7.文本分类
8.语义理解
TM的各种应用方向举例
1.新一代搜索引擎
例:某博热搜榜
2.互联网内容安全
例:互联网舆情监测、非法内容发布
3.企业知识管理
例:企业内知识共享、企业相关外部信息、CRM系统
4.个人智能信息访问
5.目标客户的精确定位和推送
例:今日头条
注意
本文是观看B站@就是老衲啊转发的视频整理所得

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值