垂直信息流-助理类产品

背景:

1、机器学习当道,已然是成熟理念,基于机器学习可以做到诸如,信息分类,聚合,热点提取,用户个性化自动识别。信息相关性阅读。基于这样的商业特点,能对传统应用领域带来质的提升。

2、信息流:信息流世面上产品很多,今日头条就是典型,今日头条的大的产品形态就是利用爬虫爬取互联网上的所有新闻,分类,然后根据用户阅读行为,形成精准推链,极大增加用户粘性。此模式已经是当下的主流模式。各家争相效仿。

3、助手:现代社会节奏已然非常之快,特别是高端人群,而在信息量爆炸的时代,核心问题已经变成如何在庞大的信息之中提取与自己相关的信息,换种说法,如果有个人工智能的机器人,能帮我们执行一下较为简单的任务,那么我们能节约出很多时间,用在刀刃上,来换取更多的社会价值。这种任务如,办公助手,形态如自动回复简单邮件,自动收集新闻,提取感兴趣的动向,去重复信息。推送。

4、产品衍生:结合传统互联网,可发挥空间很大,比如基于机器学习的分类,可以把用户进一步分组(兴趣细分)。无限可能,不一一列举。

 

信息流-助手:

产品定位:

整体表象:垂直领域的信息聚合。分类,深度阅读。领域暂定科技信息。后面再说明具体的领域玩法。比如,如果我想做幼儿早教领域,可以爬虫爬取这个领域的内容。套路类似。

 

爬虫及数据来源:爬虫爬取一些指定的,信息质量和数量比较高的一些网站(科技)作为数据源。解决“内容”的问题。

 

热点:众多信息类网站各有特色,各有各的渠道,所以新闻的内容会所有不同。这样就有个基本的刚性需求,信息去重,并且,热点信息提取。比如,第一时间告诉你行业最新最重要的动态。由于去重和热点计算后,这样的信息量就不会很多。并且阅读相关性的自动识别,可以帮用户筛选相关内容,比如看了一个苹果公司相关的新闻后,显示相关历史新闻。以便了解事件的前后文。

 

分类:机器学习和分类问题,技术上早就被攻克,大厂都做了很久了,加上大厂都是做平台,那么为什么现在每个公司仍然都有自己的算法人员和数据挖掘人员。原因有2,一个是数据本身不标准,每家都有自己独特的业务数据,各家的数据长得不一样,就算是同一个行业,数据也不是完全的行业标准。另外一个是,各家玩法,发展方向有不同,各自对数据的挖掘方向有不同。比如分类问题,策略不同,分类分的结果也不一样。

 

标签和内容特征:人工审核+机器深度学习,需要行业知识引导。人得懂这个行业,告诉机器学习的方向,策略,对机器学习的结果和质量做评估。

 

用户行为分析:用户的行为,阅读习惯,兴趣偏好,留言评论等。个性化推荐是必须的。并且通过行为刻画成用户画像,中后期做社群有用。用户行为分析不仅能知道用户喜欢的,也能发现用户反感的,并且同一件事物,不用用户会有不同的反馈和观点。分析和统计舆论导向上,有深入的文章可以做(自然语言情感分析)。

 

产品价值:

初期只想以自己为原型做一个阅读工具。并且只在一个垂直领域尝试,以技术产品为主。目标是证明技术产品的可性性,并尝试实现一些常用场景下的解决方案。(证明技术能力,和相关技术对领域的通用性)。先看看能不能对自己有用,然后再看,是不是有些有意思的地方。通用性的产品架构成型后,再来探索应用领域。

 

阅读助手方面:自动内容推荐,订阅推送,其他方面,还没想到实用的功能,有想过集成一个提醒工具。因为产品通常都会打通微信,微信小程序也是主流的交互形式。

 

用户粘性上,由于持续有爬虫爬取最新的内容,并且控制了内容的质量,有一定基本粘性保障,还能怎么增加粘性,得靠产品性。

 

实施规划:

 

1、实用目标,一定要实用,对自己有用。根据优先级,难以程度,规划不同阶段的实施重点。

 

一阶段:

信息聚合,热点筛选,内容清洗,相关性阅读。产品交互形态,web浏览,信息推送。用户行为收集。(产品简版原型)产品形态参照冯大辉的 readhub。由于详细阅读可以跳转到原始url,也不构成侵权。

 

二阶段:

内容标签提取,分类,交互形态上,打通微信号,小程序。(做用户和推广,熟人间推广,证明技术能力)

用户方面,用户画像的模块初始形态行程,程序能根据用户行为,自动更新用户画像。

报表:各种报表,用户访问,用户分类,用户习惯,趋势,网站访问统计指标等等,以做基本的数据分析用,高级数据分析依赖原始数据。比如,用户阅读行为都是分布在什么时间段。

 

个性化信息流成型,并且有完整的前后台管理。

 

三阶段:

下面几个可选项,yy的。

a、工具化,(以通用的技术应用在一些能解决生活和工作便利的小点上)

b、定位一个新的行业领域,移植技术。(商业合作,看有合适的机会,b端,c端都可以)

c、内容持续挖掘,继续做用户深度挖掘。兴趣阅读更智能,同时用户数据多了,用户的分群更精准。可以有针对性的运营各个板块。(运营人员就要跟上了。)

 

产品形态参照 “即克”。

 

技术价值和技术积累:

这样一个产品所需的知识体系:

垂直爬虫,自然语言处理,机器学习,深度学习,索引,实时流处理,微信小程序,前端框架。

然后是内容所属的行业知识(不了解行业,无法指导精准机器学习,精准分类)。

 

上面这些知识体系具体到技术产品:

1、爬虫:选择很多,python,java 都有现成的用,自己写也行,差别不大,

2、spark:机器学习,批次任务处理,spark带了很多高级api,应用上要写很多代码处理的东西,他也许就一个api搞定,而且可以处理海量数据(集群部署的)。

3、flink:实时流处理,最新的主流产品。(kafka和zk是入门基础)

4、elasticsearch:当前最主流的索引。做报表和数据清洗也很方便,用户很大,可以当数据库用,全文索引那更是必不可少。

5、anglarJS:调研了几种主流的前端框架,相对anglar最稳妥,长远看 React有版权问题,大厂都开启弃用了,vue是小厂,依赖个人开发者动力的东西不能押宝太多。

6、微信小程序:目前的主流交互形式,光靠小程序吃饭,都不愁找不到工作。

7、python:机器学习,数据分析,主流的机器学习都用python,工具库最多最全。适合数据分析,海量大数据处理才用spark上。另外主站也有考虑用python做,python做demo是很快的,我的思路是,所有的damo都用python做,商业化产品用其他企业级框架,java生态圈,golang等,可行性还不确定,因为就算python再简单,也还是有些学习成本。

8、redis:redis的数据结构和性能是非常好的,可以挖掘一些应用上的场景。常规应用都把redis当个缓存用,太low了。redis有很多针对性的api,比如,redis 的geo api可以记录用户的经纬度,适合趋于定位,找人。还有bit map特性,适合去重和数据存储,比如网站数据分析,访问量,pv,uv,用户特征结构化高速存储等。

9、大数据通用的技术,hdfs,hive,mapreduce,常规套路,数据仓库建设理论需要有。

 

其他主流技术:

elastic生态圈的kibana,做日志分析用,主流,成熟。

elactic-job,分布式定时框架,可能是未来主流。

容器化及自动运维工具,(初期作用不大,对于小团队),大厂倒是很需要。

微服务化,已然是个主流成熟套路,照搬就好。

 

终极结论:

以上产品规划,兼顾技术积累的比重很大,都是互联网,技术行业的主流,就是商业领域不成功,主流吃饭的知识绝不会耽误。是个保本思路。这些主流知识的掌握,对提高视野,自我推广是有一定帮助的(技术领域)。应用上由于这些技术的通用性,就业,选择行业,都有帮助。这些技能如果有机会运用到本职工作中那也是有惊喜的。

 

工具化,这个就属于领用领域,我感觉只适合为自己做工具。比如自己做个聊天机器人,在自己不在线或者繁忙的时候,稍微和对方沟通下。提供一些有用信息。

 

商业化:

爬虫是独立的商业领域,如果基本功扎实,工具用的得当,可以接单为客户定制爬取内容,是个独立的小生意,有很多小公司做。如果爬虫爬到后再做数据分析,比如竞品分析,那就会显得很有价值,很有竞争门槛。

 

数据分析:这个是个热门职业,商业数据分析师,职场发展都很好,级别也高。有很多玩法,潜力无限。

 

机器学习:做预测比较多,比如电影推荐,商品推荐。预测客户是否喜欢这个商品。

 

以上规划,相对综合了主流的知识范围,让“学习内容”不会过于分散。以实际产品形态来证明“学习成果”,会有很多产品形态上的思考,也不至于纯技术那么枯燥。

本文由好友Ricky所写。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值