NLP(学习笔记)
文章平均质量分 64
NLP
涂作权的博客
To do what I want to do!
展开
-
3.商品可视化展示与文本处理
3.商品可视化展示与文本处理3.1.依赖包安装准备工作,先安装scikit-learn,scipy,numpy等等(base) C:\Users\toto>pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simpleLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleRequirement already satisfied: scikit-lea原创 2021-04-10 12:37:15 · 1003 阅读 · 1 评论 -
2.5.jieba分词工具、Jieba安装、全模式/精确模式、添加自定义词典、关键词抽取、词性标注、词云展示
2.5.jieba分词工具2.5.1.Jieba安装2.5.2.全模式/精确模式2.5.3.添加自定义词典2.5.4.关键词抽取2.5.5.词性标注2.5.6.词云展示2.5.jieba分词工具2.5.1.Jieba安装(base) C:\Users\toto>pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simpleLooking in indexes: https://pypi.tuna.tsinghua.edu.原创 2021-04-10 11:50:36 · 1356 阅读 · 0 评论 -
2.4.安装spaCy
2.4.安装spaCy进入Anaconda的prompt命令行界面,执行如下:(base) C:\Users\toto>pip install spaCy -i https://pypi.tuna.tsinghua.edu.cn/simpleLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleCollecting spaCy Using cached https://pypi.tuna.tsinghua.edu.cn/pa原创 2021-04-10 11:28:56 · 873 阅读 · 0 评论 -
2.3.NLTK工具包安装、分词、Text对象、停用词、过滤掉停用词、词性标注、分块、命名实体识别、数据清洗实例、参考文章
2.3.NLTK工具包安装2.3.1.分词2.3.2.Text对象2.3.3.停用词2.3.4.过滤掉停用词2.3.5.词性标注2.3.6.分块2.3.7.命名实体识别2.3.8.数据清洗实例2.3.9.参考文章2.3.NLTK工具包安装非常实用的文本处理工具,主要用于英文数据,历史悠久~(base) C:\Users\toto>pip install nltk -i https://pypi.tuna.tsinghua.edu.cn/simpleLooking in ind原创 2021-04-10 11:25:04 · 1471 阅读 · 0 评论 -
2.2.python正则表达式
2.2.正则表达式2.2.1.正则表达式语法2.2.2.Python正则表达式2.2.2.1.字符集合2.2.2.2.‘或’方法2.2.2.3.匹配数字’\d’等价于[0-9]2.2.2.4.‘\D’匹配非数字2.2.2.5.’\w’匹配字母和数字2.2.2.6.‘\W’匹配非字母和数字2.2.2.7.‘\s’匹配间隔符2.2.2.8.重复2.2.2.9.精确匹配和最小匹配2.2.3.match与search2.2.3.1.字符串的替换和修改2.2.3.2.split 切片函数。原创 2021-04-10 11:07:12 · 969 阅读 · 0 评论 -
2.1.Python字符串处理(去掉空格或者特殊字符、替换操作、查找操作、判断操作、分割合并操作、字符串文档)
2.1.Python字符串处理2.1.1.去掉空格或者特殊字符2.1.2.替换操作2.1.3.查找操作2.1.4.判断操作2.1.5.分割合并操作2.1.6.字符串文档2.1.Python字符串处理2.1.1.去掉空格或者特殊字符# -*- coding: UTF-8 -*-"""1、去掉空格或者特殊字符"""input_str = ' 今天天气不错,今天挺风和日丽的 '# 去掉两边的空格print(input_str.strip())# 去掉右边的空格print(in原创 2021-04-10 10:53:02 · 3544 阅读 · 0 评论 -
1_自然语言处理简介、数据源、应用领域、课程体系
1.自然语言处理简介1.1.自然语言处理1.2.数据源1.3.应用领域1.4.课程体系1.自然语言处理简介1.1.自然语言处理为什么需要自然语言处理人工成本较高,海量数据挖掘困难,人类带有主观色彩要做一件什么事?让机器学习帮助人类解决实际问题如何去做呢?以机器学习和文本处理为核心1.2.数据源1.3.应用领域应用领域:文本摘要创作生成智能识别客服机器人情感分析统计分析搜索识别机器翻译1.4.课程体系...原创 2021-04-10 10:40:43 · 441 阅读 · 0 评论 -
06_1.Pytorch中如何表示字符串、word embedding、One - hot、Embedding(Word2vec、BERT、Glove)【学习总结】
1.6.1.如何表示字符串1.6.1.1.word embedding1.6.1.1.1.文本表示(Representation)1.6.1.1.2.独热编码 | one-hot representation1.6.1.1.3.整数编码1.6.1.1.4.什么是词嵌入 | word embedding ?1.6.1.1.5. 2中主流的word embedding算法1.6.1.1.6.百度百科和维基百科1.6.1.1.7.维基百科版本1.6.1.2.One - hot1.6.1.2.原创 2021-01-23 19:21:54 · 2174 阅读 · 0 评论