本文链接：https://blog.csdn.net/qq_34440201/article/details/103067926

第五章自然语言处理案例——电商评论
问题一：missingno包的安装与导入
需要使用missingno包预览缺失值。（最好都看完再进行操作）
开始直接pip install missingno命令安装不上，在Anaconda里也没法直接搜到相应的包。找了半天博客，百度，在github上找到相应的包，下载相应的文件：
网址：https://github.com/ResidentMario/missingno这个是别人写的包，解压后目录内容如下：
在这里插入图片描述
然后按照readme.md文件执行。我说一下我的运行过程：
开始运行里cmd命令，在解压后目录下运行pip install quilt
这步好几次报错，说是pip版本不是最新的，可以根据提示命令更新，我这里因为电脑里装了几个python还有几个IDE工具，所以pip.exe不止一个，这里问题就不细说了。
然后运行quilt install ResidentMario/missingno_data
在这里插入图片描述本来以为终于好使了，结果在spyder里运行还是加载不了，只能运行missingno_data的相关内容：
我在cmd命令行里再pip一下就好使了！天啊，这个真是神奇的坑，也不知道为什么最开始pip install不好使。如果谁弄明白了希望能告诉我一声，谢谢。
在这里插入图片描述问题二：删除缺失值
书中86页删除缺失值部分col多加了一个[ ],这块也可以看视频，视频讲解是对的。

df=df.dropna(subset=col) #删除缺失值

问题三：数据可视化
本章中sns画图时不能显示中文，都是一个个小方块，解决办法为在代码开头加入三行代码;

from matplotlib.font_manager import FontProperties
myfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=14)
sns.set(font=myfont.get_name())

其中第二行为你电脑里自带的字体，并设置字体大小，可以自行设置。

问题四：文本分析
停用词库及用法可参考网址https://pypi.org/project/stopwords/
步骤：
1.在cmd命令行中输入命令行导入包：pip install stopwords
在这里插入图片描述
2.该包针对python2写的，直接import stopwords会报错，需要改一行代码，错误提示如下：
需要按照报错提示在84行加个括号，更改如下：

print(lang)

在这里插入图片描述
3.可以加载运行

import stopwords
stopwords.print_languages()#看停用词语言种类
stopwords.get_stopwords("en")#选择英语停用词
txt = "The quick brown fox jumps over the lazy dog"
stopwords.clean(txt.lower().split(), "en")#对txt进行清除停用词处理