python影评_python评论情感分析(python中文文本分析)

6f153067e0cf0d60718b1c6283818dc2.png

重复值处理

重复数据对文本分析和建模没有帮助。

#删除重复记录()

文本内容清理

文本中的表达符号和特殊字符通常对文本分析影响不大。通过常规匹配删除文本中指定的字符。

清洁前

#清理文字内容,特殊符号使用正则表达式[!\#$%()*,-。[\\\]^_^{|}~—。[] 《》'' "\ s] () # scheme (text)(,text)# scheme(text):return re _ obj . sub(,text)data[comment]data[comment]。应用(清除)数据。head()

7dc3400af97db5382f30effcda87611e.png

A和B方案都可以,但是B方案更好

原因是方案A直接调用正则表达式的模块实现方案B,即通过对象创建一个正则表达式对象进行模式匹配。两种实现方法都能满足要求。方案B更好,因为方案A也在内部创建一个正则表达式进行匹配,实现时会频繁调用apply。因为数据中有很多记录['comment'],每条记录都会调用一次clear方法,会频繁创建正则表达式对象,但是方案B不会频繁创建正则表达式对象,所以方案B效率更高。

清洗后,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值