基于python的智能文本分析_基于Python的智能文本分析

预处理并将文本向量化成高维特征表示。

·执行文档分类和主题建模。

·通过可视化诊断指导模型选择过程。

·提取关键短语、命名实体和图结构,实现文本数据推断。

·建立对话框架,实现聊天机器人和语言驱动交互。

·用Spark扩展处理能力,用神经网络实现对更复杂模型的支持。

从新闻、讲话,到社交媒体上非正式的聊天,自然语言是最丰富、且尚未充分利用的数据源之一。不但数据源源不断,在使用环境中还在不断调整、变化;还包含了很多传统数据源未能传达的信息。打开自然语言宝藏的钥匙,就是基于文本分析的创造性应用。这本实战指南介绍了从数据科学家角度如何建立语言感知产品并有效应用机器学习。

您将学到如何用Python实现健壮、可重复和可扩展的文本分析,包括上下文特征和语言特征工程、向量化、分类、主题建模、实体解析、图分析和可视化操作。在本书的最后,您将获得解决众多复杂现实问题的实用方法。

Benjamin Bengfort是一位专门研究分布式系统、机器学习及其他相关技术的计算机科学家。

Rebecca Bilbro是一名数据科学家和Python程序员,致力于研究机器学习工作流的可视化诊断。

Tony Ojeda是District Data Labs的创始人和CEO,专注于商业策略应用分析、优化、预测服务,以及开源工具使用课程。

陈光,北京邮电大学副教授,主要研究方向为机器学习和自然语言处理。

目录

前言 1

第1章 语言与计算 13

数据科学范式 14

语言感知数据产品 .16

语言即数据 21

小结 .29

第 2 章 构建自定义语料库 31

语料库是什么? .32

语料库数据管理 .35

语料库读取器 39

小结 .49

第3章 语料库预处理与处置 50

分解文档.50

语料库的转换 60

小结 .67

第4章 文本向量化和转换流水线 68

空间中的词 69

Scikit-Learn API .81

流水线 .88

小结 .93

第5章 面向文本分析的文本分类 95

文本分类.96

构建文本分类应用 .99

小结 .110

第6章 文本相似性聚类 . 112

文本上的无监督学习 112

文档相似性聚类 .114

文档主题建模 127

小结 .139

第7章 上下文感知文本分析 140

基于语法的特征提取 141

n-Gram特征提取 147

n-Gram语言模型 155

小结 .165

第8章 文本可视化 166

可视化特征空间 .167

模型诊断.185

可视化操纵 193

小结 .196

第9章 文本的图分析 .198

图计算与分析 200

从文本中抽取图 .204

实体解析.216

小结 .221

第10章 聊天机器人 223

对话基础.224

礼貌对话规则 231

有趣的问题 239

学习帮助.250

小结 .257

第11章 利用多处理和Spark扩展文本分析259

Python多处理 .260

Spark集群计算 271

小结 .289

第12章 深度学习与未来 .291

应用神经网络 292

神经网络语言模型 .292

情感分析.303

未来(几乎)已来 .309

词汇表 311

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值