【产品分析】某红书数据采集数据分析评论分析笔记爬虫采集

伴随着购买力及消费水平的日益提高,健康养生的观念日益普及,我国居民消费者更加注重自身健康管理及生活品质的提高。提前摄取保健品提高健康水平、并减少药品治疗的健康理念得到社会广泛认同,营养保健食品消费日渐成为习惯。同时环境污染等问题日益突出,亦扩大了功能性软糖等营养保健食品行业的市场需求。随着国内消费者对功能性软糖产品认可度的提升,近年来国内外厂商积极布局功能性软糖市场。

今天就来分享下软糖的产品设计辅助分析方法

1、抓取相关关键词的大量笔记。
2、抽取关键数据,如笔记中提到的口味、使用场景、购买渠道等。
3、通过数据占比出可视化图表,辅助产品设计。

某红书数据抓取

该产品搜索没有web端口子,只能抓取APP或小程序,作者抓取了微信小程序的前五十页点赞最高的【软糖】笔记作为数据分析数据,共抓取2208条笔记数据;

数据展示:
在这里插入图片描述

数据分析

通过自然语言处理从笔记中抽取了使用场景、使用人群、地域分布、成分包含、营养成分、最好不包含成分等数据维度。

图表展示
def draw_bar(keys, values, titile, subtitle='共2208条笔记'):
    bar1=(
           Bar(init_opts=opts.InitOpts(
        ))
           .add_xaxis(keys)
           .add_yaxis('数量'##系列的名称
                      ,values, 
                     ) ##系列的数值
           .set_global_opts(title_opts=opts.TitleOpts(
                    title=titile,
                    subtitle=subtitle
                    ,item_gap=10#主副标题之间的距离
                    ,title_textstyle_opts=opts.TextStyleOpts(
                                   font_size=20
                                   ,font_weight='bold'  
                    )
                    ,subtitle_textstyle_opts=opts.TextStyleOpts(
                                     font_style='normal'
                                     ,font_weight='normal'                                                                    
                                     ,font_family= 'monospace'
                                     ,font_size=15
                                     ,background_color='grey'
                                     ,border_color='black' 
                    )
                ), 
                xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=40))
        )
    )
    return bar1
def pie_base() -> Pie:
    c = (
        Pie()
        .add("", [list(z) for z in zip(list(data.keys())[:-4], list(data.values())[:-4])], center=['50%','60%'],radius=["45%", "80%"])
        .set_global_opts(title_opts=opts.TitleOpts(title="营养成分-某红书", subtitle='共2208条笔记'),
                        legend_opts=opts.LegendOpts(pos_left='right', orient='vertical',))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
    )
    return c
pie_base().render_notebook()

使用人群:
使用人群
地域分布:
在这里插入图片描述
天然成分:
在这里插入图片描述
营养成分:
在这里插入图片描述
最好不包含成分:
在这里插入图片描述
提及口味:
在这里插入图片描述

市场分析

目前来看,我国功能性软糖市场仍处于发展阶段,消费者还是对酸、甜口味的软糖情有独钟;
不希望在软糖中添加脂肪、香精等成分;
维生素、铁、益生菌等成分是消费者比较关注的消费点;

#市场分析、数据抓取、软件定制
url = "http://www.17610352720.cn/index"
结尾

感谢您的观看,记得点赞关注哦~

### 使用 Python 进行小红书数据采集和网络爬虫的基础指南 #### 1. 基本概念与工具准备 Python 是一种功能强大的编程语言,在数据采集领域具有广泛的应用。为了实现从小红书这样的社交平台上抓取数据,可以采用多种技术和库。常用的工具有 `requests` 和 `BeautifulSoup`,它们适合处理简单的网页结构;对于动态加载的内容,则可能需要用到 Selenium 或 Playwright 来模拟浏览器行为[^1]。 #### 2. 遵守法律与道德规范 在开始任何爬虫项目之前,务必了解目标网站的服务条款以及相关法律法规。例如,小红书拥有严格的反爬机制,并且明确指出不希望第三方未经授权访问其内部数据。因此,在实际操作过程中应谨慎行事,适当降低请求频率并添加随机延迟时间以减少被封禁的风险[^3]。 #### 3. 实战技巧分享 以下是两个具体案例说明如何利用 Python 技术获取所需信息: - **方法一:通过 API 接口** 如果能够找到公开可用的小红书API接口(尽管官方并未提供),可以直接调用这些服务来提取指定资源的信息。这种方法通常更加稳定可靠,因为它是按照设计者意图工作的标准方式之一[^4]。 - **方法二:解析 HTML 页面** 当无法依赖现成的API时,另一种常见做法是从原始HTML文档中提取有用的部分。这需要先发送GET/POST 请求至相应URL地址,接着运用正则表达式或者专门用于DOM树遍历的模块如lxml来进行进一步分析处理[^2]。 ```python import requests from bs4 import BeautifulSoup def fetch_data(url): headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') titles = [] for title in soup.find_all('h2', class_='post-title'): titles.append(title.string.strip()) return titles ``` 上述脚本展示了基本流程:定义自定义 User Agent 字符串伪装成正常访客;发起 GET 请求连接远程服务器取得响应体内容;最后借助 BeautifulSoup 解析器定位特定标签内的文字节点值列表形式返回给调用方。 #### 4. 提升效率与稳定性建议 随着需求复杂度增加,单纯依靠基础库难以满足高性能要求。此时引入Scrapy框架成为不错的选择,它内置了许多特性支持大规模分布式作业执行的同时还能自动管理重试逻辑、去重复过滤等功能。 ---
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱python的王三金

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值