《Python机器学习——数据分析与评分卡建模》学习笔记

第五章 自然语言处理案例——电商评论
问题一:missingno包的安装与导入
需要使用missingno包预览缺失值。(最好都看完再进行操作)
开始直接pip install missingno命令安装不上,在Anaconda里也没法直接搜到相应的包。找了半天博客,百度,在github上找到相应的包,下载相应的文件:
网址:https://github.com/ResidentMario/missingno这个是别人写的包,解压后目录内容如下:
在这里插入图片描述
然后按照readme.md文件执行。我说一下我的运行过程:
开始运行里cmd命令,在解压后目录下运行pip install quilt
在这里插入图片描述这步好几次报错,说是pip版本不是最新的,可以根据提示命令更新,我这里因为电脑里装了几个python还有几个IDE工具,所以pip.exe不止一个,这里问题就不细说了。
然后运行quilt install ResidentMario/missingno_data
在这里插入图片描述本来以为终于好使了,结果在spyder里运行还是加载不了,只能运行missingno_data的相关内容:
在这里插入图片描述我在cmd命令行里再pip一下就好使了!天啊,这个真是神奇的坑,也不知道为什么最开始pip install不好使。如果谁弄明白了希望能告诉我一声,谢谢。
在这里插入图片描述问题二:删除缺失值
书中86页删除缺失值部分col多加了一个[ ],这块也可以看视频,视频讲解是对的。

df=df.dropna(subset=col) #删除缺失值

问题三:数据可视化
本章中sns画图时不能显示中文,都是一个个小方块,解决办法为在代码开头加入三行代码;

from matplotlib.font_manager import FontProperties
myfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=14)
sns.set(font=myfont.get_name())

其中第二行为你电脑里自带的字体,并设置字体大小,可以自行设置。

问题四:文本分析
停用词库及用法可参考网址https://pypi.org/project/stopwords/
步骤:
1.在cmd命令行中输入命令行导入包:pip install stopwords
在这里插入图片描述
2.该包针对python2写的,直接import stopwords会报错,需要改一行代码,错误提示如下:
在这里插入图片描述需要按照报错提示在84行加个括号,更改如下:

print(lang)

在这里插入图片描述
3.可以加载运行

import stopwords
stopwords.print_languages()#看停用词语言种类
stopwords.get_stopwords("en")#选择英语停用词
txt = "The quick brown fox jumps over the lazy dog"
stopwords.clean(txt.lower().split(), "en")#对txt进行清除停用词处理

NLTK自然语言处理常用的python包,需要先下载才能import
在python里输入代码

import nltk
nltk.download()

会出现下图,点击download下载。
在这里插入图片描述在python里运行代码提示:
在这里插入图片描述
解决办法:按照提示在python里输入命令:
在这里插入图片描述问题五:情感分析
在情感分析这部分,需要导入textblob包。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值