垂直信息流-助理类产品

最新推荐文章于 2023-08-10 16:56:16 发布

小雷FansUnion

最新推荐文章于 2023-08-10 16:56:16 发布

阅读量521

点赞数

分类专栏：研发架构产品业务

本文链接：https://blog.csdn.net/FansUnion/article/details/88626548

版权

研发架构同时被 2 个专栏收录

54 篇文章 1 订阅

订阅专栏

产品业务

51 篇文章 0 订阅

订阅专栏

背景：

1、机器学习当道，已然是成熟理念，基于机器学习可以做到诸如，信息分类，聚合，热点提取，用户个性化自动识别。信息相关性阅读。基于这样的商业特点，能对传统应用领域带来质的提升。

2、信息流：信息流世面上产品很多，今日头条就是典型，今日头条的大的产品形态就是利用爬虫爬取互联网上的所有新闻，分类，然后根据用户阅读行为，形成精准推链，极大增加用户粘性。此模式已经是当下的主流模式。各家争相效仿。

3、助手：现代社会节奏已然非常之快，特别是高端人群，而在信息量爆炸的时代，核心问题已经变成如何在庞大的信息之中提取与自己相关的信息，换种说法，如果有个人工智能的机器人，能帮我们执行一下较为简单的任务，那么我们能节约出很多时间，用在刀刃上，来换取更多的社会价值。这种任务如，办公助手，形态如自动回复简单邮件，自动收集新闻，提取感兴趣的动向，去重复信息。推送。

4、产品衍生：结合传统互联网，可发挥空间很大，比如基于机器学习的分类，可以把用户进一步分组（兴趣细分）。无限可能，不一一列举。

信息流-助手：

产品定位：

整体表象：垂直领域的信息聚合。分类，深度阅读。领域暂定科技信息。后面再说明具体的领域玩法。比如，如果我想做幼儿早教领域，可以爬虫爬取这个领域的内容。套路类似。

爬虫及数据来源：爬虫爬取一些指定的，信息质量和数量比较高的一些网站（科技）作为数据源。解决“内容”的问题。

热点：众多信息类网站各有特色，各有各的渠道，所以新闻的内容会所有不同。这样就有个基本的刚性需求，信息去重，并且，热点信息提取。比如，第一时间告诉你行业最新最重要的动态。由于去重和热点计算后，这样的信息量就不会很多。并且阅读相关性的自动识别，可以帮用户筛选相关内容，比如看了一个苹果公司相关的新闻后，显示相关历史新闻。以便了解事件的前后文。

分类：机器学习和分类问题，技术上早就被攻克，大厂都做了很久了，加上大厂都是做平台，那么为什么现在每个公司仍然都有自己的算法人员和数据挖掘人员。原因有2,一个是数据本身不标准，每家都有自己独特的业务数据，各家的数据长得不一样，就算是同一个行业，数据也不是完全的行业标准。另外一个是，各家玩法，发展方向有不同，各自对数据的挖掘方向有不同。比如分类问题，策略不同，分类分的结果也不一样。

标签和内容特征：人工审核+机器深度学习，需要行业知识引导。人得懂这个行业，告诉机器学习的方向，策略，对机器学习的结果和质量做评估。

用户行为分析：用户的行为，阅读习惯，兴趣偏好，留言评论等。个性化推荐是必须的。并且通过行为刻画成用户画像，中后期做社群有用。用户行为分析不仅能知道用户喜欢的，也能发现用户反感的，并且同一件事物，不用用户会有不同的反馈和观点。分析和统计舆论导向上，有深入的文章可以做（自然语言情感分析）。

产品价值：

初期只想以自己为原型做一个阅读工具。并且只在一个垂直领域尝试，以技术产品为主。目标是证明技术产品的可性性，并尝试实现一些常用场景下的解决方案。（证明技术能力，和相关技术对领域的通用性）。先看看能不能对自己有用，然后再看，是不是有些有意思的地方。通用性的产品架构成型后，再来探索应用领域。

阅读助手方面:自动内容推荐，订阅推送，其他方面，还没想到实用的功能，有想过集成一个提醒工具。因为产品通常都会打通微信，微信小程序也是主流的交互形式。

用户粘性上，由于持续有爬虫爬取最新的内容，并且控制了内容的质量，有一定基本粘性保障，还能怎么增加粘性，得靠产品性。

实施规划：

1、实用目标，一定要实用，对自己有用。根据优先级，难以程度，规划不同阶段的实施重点。

一阶段：

信息聚合，热点筛选，内容清洗，相关性阅读。产品交互形态，web浏览，信息推送。用户行为收集。（产品简版原型）产品形态参照冯大辉的 readhub。由于详细阅读可以跳转到原始url，也不构成侵权。

二阶段：

内容标签提取，分类，交互形态上，打通微信号，小程序。（做用户和推广，熟人间推广，证明技术能力）

用户方面，用户画像的模块初始形态行程，程序能根据用户行为，自动更新用户画像。

报表：各种报表，用户访问，用户分类，用户习惯，趋势，网站访问统计指标等等，以做基本的数据分析用，高级数据分析依赖原始数据。比如，用户阅读行为都是分布在什么时间段。

个性化信息流成型，并且有完整的前后台管理。

三阶段：

下面几个可选项，yy的。

a、工具化，（以通用的技术应用在一些能解决生活和工作便利的小点上）

b、定位一个新的行业领域，移植技术。（商业合作，看有合适的机会，b端，c端都可以）

c、内容持续挖掘，继续做用户深度挖掘。兴趣阅读更智能，同时用户数据多了，用户的分群更精准。可以有针对性的运营各个板块。（运营人员就要跟上了。）

产品形态参照 “即克”。

技术价值和技术积累：

这样一个产品所需的知识体系：

垂直爬虫，自然语言处理，机器学习，深度学习，索引，实时流处理，微信小程序，前端框架。

然后是内容所属的行业知识（不了解行业，无法指导精准机器学习，精准分类）。

上面这些知识体系具体到技术产品：

1、爬虫：选择很多，python，java 都有现成的用，自己写也行，差别不大，

2、spark：机器学习，批次任务处理，spark带了很多高级api，应用上要写很多代码处理的东西，他也许就一个api搞定，而且可以处理海量数据（集群部署的）。

3、flink：实时流处理，最新的主流产品。（kafka和zk是入门基础）

4、elasticsearch：当前最主流的索引。做报表和数据清洗也很方便，用户很大，可以当数据库用，全文索引那更是必不可少。

5、anglarJS：调研了几种主流的前端框架，相对anglar最稳妥，长远看 React有版权问题，大厂都开启弃用了，vue是小厂，依赖个人开发者动力的东西不能押宝太多。

6、微信小程序：目前的主流交互形式，光靠小程序吃饭，都不愁找不到工作。

7、python：机器学习，数据分析，主流的机器学习都用python，工具库最多最全。适合数据分析，海量大数据处理才用spark上。另外主站也有考虑用python做，python做demo是很快的，我的思路是，所有的damo都用python做，商业化产品用其他企业级框架，java生态圈，golang等，可行性还不确定，因为就算python再简单，也还是有些学习成本。

8、redis：redis的数据结构和性能是非常好的，可以挖掘一些应用上的场景。常规应用都把redis当个缓存用，太low了。redis有很多针对性的api，比如，redis 的geo api可以记录用户的经纬度，适合趋于定位，找人。还有bit map特性，适合去重和数据存储，比如网站数据分析，访问量，pv，uv，用户特征结构化高速存储等。

9、大数据通用的技术，hdfs，hive，mapreduce，常规套路，数据仓库建设理论需要有。

其他主流技术：

elastic生态圈的kibana，做日志分析用，主流，成熟。

elactic-job，分布式定时框架，可能是未来主流。

容器化及自动运维工具，（初期作用不大，对于小团队），大厂倒是很需要。

微服务化，已然是个主流成熟套路，照搬就好。

终极结论：

以上产品规划，兼顾技术积累的比重很大，都是互联网，技术行业的主流，就是商业领域不成功，主流吃饭的知识绝不会耽误。是个保本思路。这些主流知识的掌握，对提高视野，自我推广是有一定帮助的（技术领域）。应用上由于这些技术的通用性，就业，选择行业，都有帮助。这些技能如果有机会运用到本职工作中那也是有惊喜的。

工具化，这个就属于领用领域，我感觉只适合为自己做工具。比如自己做个聊天机器人，在自己不在线或者繁忙的时候，稍微和对方沟通下。提供一些有用信息。

商业化：

爬虫是独立的商业领域，如果基本功扎实，工具用的得当，可以接单为客户定制爬取内容，是个独立的小生意，有很多小公司做。如果爬虫爬到后再做数据分析，比如竞品分析，那就会显得很有价值，很有竞争门槛。

数据分析：这个是个热门职业，商业数据分析师，职场发展都很好，级别也高。有很多玩法，潜力无限。

机器学习：做预测比较多，比如电影推荐，商品推荐。预测客户是否喜欢这个商品。

以上规划，相对综合了主流的知识范围，让“学习内容”不会过于分散。以实际产品形态来证明“学习成果”，会有很多产品形态上的思考，也不至于纯技术那么枯燥。

本文由好友Ricky所写。

小雷FansUnion

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
垂直信息流-助理类产品

背景：1、机器学习当道，已然是成熟理念，基于机器学习可以做到诸如，信息分类，聚合，热点提取，用户个性化自动识别。信息相关性阅读。基于这样的商业特点，能对传统应用领域带来质的提升。2、信息流：信息流世面上产品很多，今日头条就是典型，今日头条的大的产品形态就是利用爬虫爬取互联网上的所有新闻，分类，然后根据用户阅读行为，形成精准推链，极大增加用户粘性。此模式已经是当下的主流模式。各家争相效仿。...
复制链接

扫一扫