2024年最新2024年Python面经分享,【问大家】电商问答数据的采集与深度分析_问大家采集,字节跳动开发面试

收集整理了一份《2024年最新Python全套学习资料》免费送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Python知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来

如果你需要这些资料,可以添加V无偿获取:hxbc188 (备注666)
img

正文

词汇过滤:筛选出与研究目标相关的专业词汇,忽略与主题无关的词汇。
词汇标记:标记专业词汇,以便后续分析时能够更容易地识别它们
在这里插入图片描述

3. 数据分析(问题版)

问题数据和答案数据分开分析,本次分析任务只对问题进行分析,了解消费者在护肤品类目中关系的一些问题和吐槽点。

3.1 统计信息

本次分析20款商品,共包含9555个问题、48005个答案。

问题字数的平均长度为12.58个字,答案的平均长度13.58字。

问题的常见词汇如下:
在这里插入图片描述
这些统计信息将帮助我们更好地了解数据的特点和分布情况。

3.2 语义网络分析

通过构建语义网络,我们可以探索问题之间的关联性,发现潜在的主题和洞察,并为数据提供更深入的理解。

3.2.1 分析步骤

1、词汇关联:使用词汇之间的关联性来构建初始的语义网络。通过计算词汇的共现频率或词汇之间的相似性来实现。
2、可视化网络:使用NetworkX将语义网络可视化,以便更好地理解问题之间的关联性。
3、主题发现:使用社区检测算法或聚类分析来识别问题的主题群组。
4、中心性分析:识别在语义网络中起关键作用的问题或词汇。

3.2.2 部分代码展示
# 计算关键词之间的共现次数
cont_list = [cont.split() for cont in cut_word_list]
alone_df = []
for i, w1 in enumerate(keywords):
    for j, w2 in enumerate(keywords):
        count = 0
        alone_count = 0
        for cont in cont_list:
            if w1 in cont and w2 in cont:
                count += 1
            elif w1 in cont or w2 in cont:
                alone_count += 1
        #coefficient词语共同出现的频次与各自单独出现频次和之比。系数值越大,关系越强,系数值越小,关系越弱。
        if alone_count==0:
            coefficient = count
        else:
            coefficient = count/alone_count
        alone_df.append([w1, w2, alone_count, count, round(coefficient,2)])
        matrix[i+1][j+1] = count

word_num = 100

kwdata.index = kwdata.iloc[:, 0].tolist()
df_ = kwdata.iloc[:word_num, 1:word_num+1]
df_.astype(int)

在这里插入图片描述

3.2.3 可视化展示

在这里插入图片描述

3.2.4 价值洞见

根据语义网络关系图和频次高的词汇,可以得出以下结论:

  1. 味道和好闻是重要关注点: 味道是否好闻被提到最多且在关系网中占据重要地位。这表明产品的气味和香气在人们选择护肤品时非常关键。这可能意味着产品的香气对于用户体验和购买决策有重要影响,因此品牌可能需要特别关注产品的气味开发和宣传。
  2. 皮肤问题是重要话题: 皮肤、干皮、洗面奶和精华也在关系网中占有一定的地位。这表明用户对于皮肤的健康和特定皮肤问题的解决方案非常关心。因此,品牌可以强调产品如何满足不同皮肤类型和问题的需求,以吸引潜在客户。
  3. 产品种类相关性: 洗面奶和精华可能与用户在皮肤护理中常用的产品类型有关。提示品牌可以在宣传中强调这两种产品的特点,以吸引那些正在寻找清洁和滋润解决方案的消费者。
  4. 市场定位和产品开发: 基于这些关键词和它们之间的关系,品牌可以更好地理解消费者的需求和偏好,从而制定更有针对性的市场定位和产品开发策略。例如,品牌可以开发针对特定皮肤类型的香气宜人的产品,或者强调产品的香气和皮肤健康之间的关系。
3.3 多维数据分析

揭示问题数据中的潜在结构和关联性。通过MDS,我们可以将高维问题数据映射到低维空间,从而帮助我们可视化问题之间的相似性和差异性。

3.3.1 分析步骤

MDS的主要步骤包括:
距离矩阵计算:选取n个数据点,通过共现值算出Jaccard距离矩阵。
降维:使用MDS算法将高维距离矩阵映射到低维空间。MDS有不同的变种,包括经典MDS和非度量MDS,可根据您的需求选择,本分析使用非度量MDS。
聚类:为了更好的看出差异性,本分析将降维后的数据集进行了Kmeans聚类。
可视化:将降维后的数据在低维空间中可视化,以揭示问题之间的结构和关联性。

3.3.2 代码展示
words = list(jaccard_matrix.index)
# 使用MDS进行降维
mds = MDS(n_components=2, dissimilarity='precomputed', random_state=10, metric=False, normalized_stress=True,)
mds_coordinates = mds.fit_transform(jaccard_matrix)


n_clusters = 5  # 设置聚类数
kmeans = KMeans(n_clusters=n_clusters, random_state=10, init='k-means++')
cluster_labels = kmeans.fit_predict(mds_coordinates)
cluster_labels = [c+1 for c in cluster_labels]

3.3.3 可视化展示

在这里插入图片描述

3.3.4 价值洞见
  1. 护肤品偏好分组: 提问的用户中,一组人关心产品的味道、正品性质,以及与干性皮肤和油痘相关的特性。这表明这些人更注重产品的香气、真伪性质,以及对应于不同皮肤类型的效果。
  2. 夏季和皮肤健康分组: 另一组人更关注产品是否好闻、是否适合夏天使用,以及与皮肤、洗面奶和面霜相关的特性。这可能表示他们更关心夏季保养、皮肤的整体健康,以及日常的洗脸和润肤过程。
  3. 洗发水和特殊需求分组: 最后一组人似乎关注闭口、混合性皮肤、孕妇和妈妈用品,以及过敏和油腻相关的问题。这表明他们可能有特殊的需求,例如,需要孕妇和妈妈用品,或者对过敏反应和油腻皮肤有敏感。
3.4 词云分析

通过生成词云,我们可以一目了然地看到问题数据中的高频词汇,从而更好地理解用户关注的主题。
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

如果你需要这些资料,可以添加V无偿获取:hxbc188 (备注666)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

如果你需要这些资料,可以添加V无偿获取:hxbc188 (备注666)
[外链图片转存中…(img-m9pWL9nV-1713814932175)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 26
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值