Python文本分析jieba——商品名称分析

AryaZhang（大力）

已于 2023-11-14 16:41:37 修改

阅读量1.1k

点赞数

分类专栏： python 文章标签：大数据 python 数据分析中文分词

于 2022-07-03 16:42:27 首次发布

本文链接：https://blog.csdn.net/aryazhang/article/details/125419043

版权

本文介绍了如何使用Python的jieba库进行中文分词，筛选特定商品名称，添加新词，并结合zhon库进行文本分析。接着，通过统计关键词出现次数创建词云，展示了词频最高的前10个词，并使用自定义背景图片生成词云图。

摘要由CSDN通过智能技术生成

一、jieba库

1、导入库

import jieba

import jieba.posseg as psg

2、筛选特定特征的数据

data.loc[data['new']=='同款',['商品名称']] #定位某一个条件
str(data1['商品名称'][0]) #在规定范围内找出符合条件的数据

3、单词分词

data1=pd.DataFrame(data.loc[data['new']=='同款',['商品名称']])

xs=psg.lcut(str(data1['商品名称'][2]))

for x in xs:
print(x.word) #x.flag为词性，word为名词=“关键词”

将分词存储为关键词，在写入数据表中，进行后续的关键词统计

4、添加jieba库的新词

1）添加单个新词：jieba.add_word()

2）批量添加新词：

txt=“路径/txt的名称.txt”

jieba.load_userdict(txt)

二、zhon

对文本内容有要求，不好用

Zhon — Zhon 1.1.5 documentation

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AryaZhang（大力）

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python数据分析 实验五商品评价分析

12-11

实验五商品评价分析一、实验目的 (1)了解文本分析的工具NLTK与jieba，会安装和使用这些工具 (2)掌握文本预处理的流程 (3)掌握文本情感分析，可以用NLTK分析情感倾向 (4)掌握文本相似度，可以结合NLTK与余弦相似度实现相似度分析 (5)掌握文本分类，可以结合NLTK与算法对文本进行分类二、实验任务对某宝网站中某卫衣的用户评价进行简单的分析，并使用词云渲染一些关键词；用户评价分析主要包括以下操作： (1)读取“商品评价信息.csv”文件,删除重复数据。 (2)使用jieba分词工具对评价文本进行分词。 (3)删除分词结果中的停用词。 (4)使用wordcloud进行词云展示。三、实验步骤 1． 2． 3．四、实验结论 1． 2． 3．

jieba+whoosh实现简单的商品搜索功能

FanMLei的博客

04-17

1791

功能描述实现一个类似淘宝的搜索功能，例如下面这个例子简单点来说我们需要先根据商品名称创建索引，然后再用索引文件匹配去查询字符串来实现商品的搜索，这种搜索是有别于正则匹配的，他会对字符串进行分词处理，准确度也会更高。准备工作这个项目种主要用到了jieba、whoosh两个库，其中jieba实现对中文的分词处理，whoosh则是创建索引文件。安装依赖：系统：Ubuntu 16.04 ...

参与评论您还未登录，请先登录后发表或查看评论

利用python检查产品名称是否有确切的品牌名称

weixin_35750747的博客

12-30

183

如果你想要检查产品名称是否包含确切的品牌名称，你可以使用 Python 的字符串操作来实现。首先，你需要确定你想要检查的品牌名称。例如，假设你想要检查的品牌名称是 "Nike"。然后，你可以使用 Python 的 in 运算符来检查给定的产品名称中是否包含该品牌名称。例如： product_name = "Nike Air Max 270" brand_name = "Nike" i...

python 商品名称相似度查找(difflib库和结巴分词的运用)

shenyuan12的专栏

08-10

2578

今天同事被告知要写一个查询商品相似度的系统，我以为事类似推荐系统一样的高大上系统，心中暗自庆幸没有被委以如此重任，不然在紧迫的时间里学习实现这套系统一定会睡眠不足的，后来同事讲解后我才知道只是一个商品名称相似度查找的小系统，说白了就是字符串相似度！关于字符串相似度python也有很多库，比如自带的difflib库，第三方Levenshtein库等等关于字符串相似度的原理我网上找了一篇博客看看，可惜太长了，理论知识太多，专业性太强，惭愧，我看了两行就没坚持下去，就直接用difflib库了，理由也很简...

Python输入关键词批量得到电商商品信息

TongOuO的博客

08-11

694

抓取电商商品信息分析

统计文本词频并输出为Excel表格形式——Python实现

12-23

统计文本词频并输出为Excel表格形式——Python实现本次实例主要是熟练对中文分词库_jieba库，以及二维数据存储_csv库的使用。目录简单介绍两个库的使用实例问题及问题分析 Python实现一、简单介绍两个库的使用 ...

基于python机器学习的商品评论情感分析-毕业设计项目

最新发布

06-04

【作品名称】：基于机器学习的商品评论情感分析——毕业设计项目【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目介绍】：从...

python日记Day08——文本词频统计（中英文）

12-23

python日记——文本词频统计（中英文）一、jieba库的基本介绍中文文本词频统计需要用到第三方库：jieba； jieba库是优秀的中文分词第三方库，需要额外安装； jieba库分词依靠中文词库，确定汉字之间的关联概率； ...

Python实现的基于标题的大规模商品实体检索

毕业作品网站

04-02

153

CCKS 2020：基于标题的大规模商品实体检索，任务为对于给定的一个商品标题，参赛系统需要匹配到该标题在给定商品库中的对应商品实体。输入：输入文件包括若干行商品标题。输出：输出文本每一行包括此标题对应的商品实体，即给定知识库中商品 ID，只返回最相关的 1 个结果。团队成绩：评价方式采用准确率，最终成绩排名如下，DeepBlueAI 团队获得了本任务的冠军以及技术创新奖。比赛难点：基于标题的大规模商品实体检索存在如下几点挑战：（1）输入文本中可能无法识别出实体指代词；

利用python进行词的包含匹配

Absgdgue的博客

10-25

101

表1的商品可能为【棉花糖】，表2的商品名称可能为【中国百年棉花糖】，所以需要包含来进行匹配。我有2个表，表1包含3个字段：商品（商品名字）、类目、分类；我需要把表2的商品名称，匹配上表1的类目和分类字段。

jieba+百度分词词库

07-13

jieba与百度的分词词库整合，加入了少量汽车行业的词语，剔除重复项之后剩余630406个词语。

jieba+百度分词词库(60万+)

08-30

jieba和百度分词词库；

python自动产品分类_商品分类(一堆多)

weixin_39572152的博客

12-06

1394

Apple iPhone 11 (A2223) 128GB 黑色移动联通电信4G手机双卡双待4999元包邮去购买 >商品分类class GoodsType(models.Model):id = models.AutoField(primary_key=True) # 分类idname = models.CharField(max_length=30) # 分类名称class Meta...

利用python检查产品名称列表是否有确切的几个品牌名称，并提取相同的其他返回列表...

weixin_35757531的博客

12-30

252

你可以使用 Python 的列表推导式来提取特定品牌名称的产品。例如，假设你有一个包含产品名称的列表 product_names 和一个包含要查找的品牌名称的列表 brands，你可以使用以下代码来提取特定品牌的产品： matched_products = [product for product in product_names if any(brand in product for bran...

Python小项目：通过商品条形码查询商品信息

蓝色是天的博客

07-14

6117

本文介绍了利用Python通过商品条形码查询商品信息的方法。通过网络爬虫技术，我们能够从特定网站获取商品细节，实现自动查询功能。文章详细解释了实现步骤，包括网站爬取、Python代码编写以及查询模块的创建。我们还介绍了如何利用日志模块进行错误追踪，确保程序的稳定性。最终，我们展示了运行结果，验证了查询商品信息的准确性和实用性。通过这篇文章，读者可以学会利用Python提升购物体验，轻松获取商品细节信息。

Python jieba库

yujinlong2002的博客

06-03

414

前言Jieba库是优秀的中文分词第三方库，中文文本需要通过分词获得单个的词语。Jieba库的分词原理：利用一个中文词库，确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。除了分词，用户还可以添加自定义的词组。

详解python匹配问题

Saki_Python的博客

12-30

887

一般数据建模步骤中，数据清洗耗时占比80%以上，因为现实中接触到的数据相当脏，无法直接简单的用pandas的merge函数解决。下面以QS大学排名的匹配为例，

Python数据分析入门教程(四)：数值操作

CDA数据分析师

01-15

763

作者 | CDA数据分析师我们把菜品挑选出来以后，就可以开始切菜了。比如要做凉拌黄瓜丝，把黄瓜找出来以后，那就可以把黄瓜切成丝了。一、数值替换数值替换就是将数值A替换成B，可以用在异常值替换处理、缺失值填充处理中。主要有一对一替换、多对一替换、多对多替换三种替换方法。 1、一对一替换一对一替换是将某一块区域中的一个值全部替换成另一个值。已知现在有一个年龄值...

jieba，为中文分词而生的Python库

weixin_43790276的博客

04-16

4204

jieba，为中文分词而生的库